Detaillierter Kursinhalt
HDFS-Einführung
- HDFS-Übersicht
- HDFS-Komponenten und Wechselwirkungen
- Zusätzliche HDFS-Interaktionen
- Ozon Überblick
- Übung: Arbeiten mit HDFS
YARN-Einführung
- YARN-Übersicht
- YARN-Komponenten und Interaktion
- Arbeiten mit YARN
- Übung: Arbeiten mit YARN
Arbeiten mit RDDs
- Belastbare verteilte Datensätze (RDDs)
- Übung: Arbeiten mit RDDs
Arbeiten mit DataFrames
- Einführung in DataFrames
- Übung: Einführung in DataFrames
- Übung: Lesen und Schreiben von DataFrames
- Übung: Arbeiten mit Spalten
- Übung: Arbeiten mit komplexen Typen
- Übung: Kombinieren und Aufteilen von DataFrames
- Übung: Zusammenfassen und Gruppieren von DataFrames
- Übung: Arbeiten mit UDFs
- Übung: Arbeiten mit Windows
Einführung in Apache Hive
- Über Hive
- Datenumwandlung mit Hive QL
Arbeiten mit Apache Hive
- Übung: Arbeiten mit Partitionen
- Übung: Arbeiten mit Eimern
- Übung: Arbeiten mit Schräglage
- Übung: Serdes zum Einlesen von Textdaten verwenden
- Übung: Verwendung komplexer Typen zur Denormalisierung von Daten
Integration von Hive und Spark
- Integration von Hive und Spark
- Übung: Spark-Integration mit Hive
Herausforderungen bei der verteilten Verarbeitung
- Mischen
- Skew
- Order
Verteilte Spark-Verarbeitung
- Verteilte Spark-Verarbeitung
- Übung: Die Reihenfolge der Abfrageausführung untersuchen
Verteilte Persistenz von Spark
- DataFrame und Persistenz von Datensätzen
- Persistenz Speicherebenen
- Anzeigen von persistierten RDDs
- Übung: Persistierende DataFrames
Daten-Engineering-Dienst
- Ad-hoc-Spark-Aufträge erstellen und auslösen
- Orchestrierung einer Reihe von Aufträgen mit Airflow
- Datenabfolge mit Atlas
- Automatische Skalierung im Data Engineering Service
XM Arbeitsbelastung
- Optimierung von Workloads, Leistung und Kapazität
- Identifizieren suboptimaler Spark-Aufträge
Anhang: Arbeiten mit Datensätzen in Scala
- Arbeiten mit Datensätzen in Scala
- Übung: Verwendung von Datensätzen in Scala