Kursüberblick
Diese viertägige praktische Schulung vermittelt die wichtigsten Konzepte und Kenntnisse, die Entwickler benötigen, um mit Apache Spark leistungsstarke, parallele Anwendungen auf der Cloudera Data Platform (CDP) zu entwickeln.
In praktischen Übungen können die Teilnehmer das Schreiben von Spark-Anwendungen üben, die sich in die CDP-Kernkomponenten integrieren lassen. Die Teilnehmer lernen, wie sie Spark SQL verwenden, um strukturierte Daten abzufragen, wie sie Hive-Funktionen verwenden, um Daten aufzunehmen und zu denormalisieren, und wie sie mit "Big Data" arbeiten, die in einem verteilten Dateisystem gespeichert sind.
Nach diesem Kurs sind die Teilnehmer in der Lage, sich realen Herausforderungen zu stellen und Anwendungen zu erstellen, um schnellere und bessere Entscheidungen zu treffen und interaktive Analysen durchzuführen, die auf eine Vielzahl von Anwendungsfällen, Architekturen und Branchen angewendet werden können.
Zielgruppe
Dieser Kurs ist für Entwickler und Dateningenieure gedacht. Von allen Teilnehmern wird erwartet, dass sie über grundlegende Linux-Erfahrungen und Grundkenntnisse in den Programmiersprachen Python oder Scala verfügen.
Voraussetzungen
Grundkenntnisse in SQL sind hilfreich. Vorkenntnisse in Spark und Hadoop sind nicht erforderlich.
Kursziele
In diesem Kurs werden Sie lernen, wie man:
- Verteilen, Speichern und Verarbeiten von Daten in einem CDP-Cluster
- Schreiben, Konfigurieren und Bereitstellen von Apache Spark-Anwendungen
- Verwenden Sie die Spark-Interpreter und Spark-Anwendungen, um verteilte Daten zu untersuchen, zu verarbeiten und zu analysieren
- Abfrage von Daten mit Spark SQL, DataFrames und Hive-Tabellen
- Bereitstellen einer Spark-Anwendung auf dem Data Engineering Service
Kursinhalt
- HDFS-Einführung
- YARN-Einführung
- Arbeiten mit RDDs
- Arbeiten mit DataFrames
- Einführung in Apache Hive
- Arbeiten mit Apache Hive
- Integration von Hive und Spark
- Herausforderungen bei der verteilten Verarbeitung
- Verteilte Spark-Verarbeitung
- Verteilte Persistenz von Spark
- Daten-Engineering-Dienst
- Arbeitsbelastung XM
- Anhang: Arbeiten mit Datensätzen in Scala
Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte hier.