Preparing with Cloudera Data Engineering (PCDE) – Details

Detaillierter Kursinhalt

HDFS-Einführung
  • HDFS-Übersicht
  • HDFS-Komponenten und Wechselwirkungen
  • Zusätzliche HDFS-Interaktionen
  • Ozon Überblick
  • Übung: Arbeiten mit HDFS
YARN-Einführung
  • YARN-Übersicht
  • YARN-Komponenten und Interaktion
  • Arbeiten mit YARN
  • Übung: Arbeiten mit YARN
Arbeiten mit RDDs
  • Belastbare verteilte Datensätze (RDDs)
  • Übung: Arbeiten mit RDDs
Arbeiten mit DataFrames
  • Einführung in DataFrames
  • Übung: Einführung in DataFrames
  • Übung: Lesen und Schreiben von DataFrames
  • Übung: Arbeiten mit Spalten
  • Übung: Arbeiten mit komplexen Typen
  • Übung: Kombinieren und Aufteilen von DataFrames
  • Übung: Zusammenfassen und Gruppieren von DataFrames
  • Übung: Arbeiten mit UDFs
  • Übung: Arbeiten mit Windows
Einführung in Apache Hive
  • Über Hive
  • Datenumwandlung mit Hive QL
Arbeiten mit Apache Hive
  • Übung: Arbeiten mit Partitionen
  • Übung: Arbeiten mit Eimern
  • Übung: Arbeiten mit Schräglage
  • Übung: Serdes zum Einlesen von Textdaten verwenden
  • Übung: Verwendung komplexer Typen zur Denormalisierung von Daten
Integration von Hive und Spark
  • Integration von Hive und Spark
  • Übung: Spark-Integration mit Hive
Herausforderungen bei der verteilten Verarbeitung
  • Mischen
  • Skew
  • Order
Verteilte Spark-Verarbeitung
  • Verteilte Spark-Verarbeitung
  • Übung: Die Reihenfolge der Abfrageausführung untersuchen
Verteilte Persistenz von Spark
  • DataFrame und Persistenz von Datensätzen
  • Persistenz Speicherebenen
  • Anzeigen von persistierten RDDs
  • Übung: Persistierende DataFrames
Daten-Engineering-Dienst
  • Ad-hoc-Spark-Aufträge erstellen und auslösen
  • Orchestrierung einer Reihe von Aufträgen mit Airflow
  • Datenabfolge mit Atlas
  • Automatische Skalierung im Data Engineering Service
XM Arbeitsbelastung
  • Optimierung von Workloads, Leistung und Kapazität
  • Identifizieren suboptimaler Spark-Aufträge
Anhang: Arbeiten mit Datensätzen in Scala
  • Arbeiten mit Datensätzen in Scala
  • Übung: Verwendung von Datensätzen in Scala