Zur Navigation springen (Enter drücken)
Zur Suche springen (Enter drücken)
Zum Kursangebot springen (Enter drücken)
Zum Seiteninhalt springen (Enter drücken)

+49 40 253346-10 Kontakt

PCDE

Online Training

Dauer
4 Tage

Preis

US $ 3.520,– (exkl. MwSt.)
US $ 4.188,80 (inkl. 19% MwSt.)

Termine und Buchen

Termin anfragen

Classroom Training

Dauer
4 Tage

Preis

Deutschland:
US $ 3.520,– (exkl. MwSt.)
US $ 4.188,80 (inkl. 19% MwSt.)
Schweiz:
US $ 5.250,– (exkl. MwSt.)
US $ 5.675,25 (inkl. 8.1% MwSt.)

Termine und Buchen

Termin anfragen

Onsite Training

Kurs anfragen

Cloudera

Preparing with Cloudera Data Engineering (PCDE) – Details

Detaillierter Kursinhalt

HDFS-Einführung

HDFS-Übersicht
HDFS-Komponenten und Wechselwirkungen
Zusätzliche HDFS-Interaktionen
Ozon Überblick
Übung: Arbeiten mit HDFS

YARN-Einführung

YARN-Übersicht
YARN-Komponenten und Interaktion
Arbeiten mit YARN
Übung: Arbeiten mit YARN

Arbeiten mit RDDs

Belastbare verteilte Datensätze (RDDs)
Übung: Arbeiten mit RDDs

Arbeiten mit DataFrames

Einführung in DataFrames
Übung: Einführung in DataFrames
Übung: Lesen und Schreiben von DataFrames
Übung: Arbeiten mit Spalten
Übung: Arbeiten mit komplexen Typen
Übung: Kombinieren und Aufteilen von DataFrames
Übung: Zusammenfassen und Gruppieren von DataFrames
Übung: Arbeiten mit UDFs
Übung: Arbeiten mit Windows

Einführung in Apache Hive

Über Hive
Datenumwandlung mit Hive QL

Arbeiten mit Apache Hive

Übung: Arbeiten mit Partitionen
Übung: Arbeiten mit Eimern
Übung: Arbeiten mit Schräglage
Übung: Serdes zum Einlesen von Textdaten verwenden
Übung: Verwendung komplexer Typen zur Denormalisierung von Daten

Integration von Hive und Spark

Integration von Hive und Spark
Übung: Spark-Integration mit Hive

Herausforderungen bei der verteilten Verarbeitung

Mischen
Skew
Order

Verteilte Spark-Verarbeitung

Verteilte Spark-Verarbeitung
Übung: Die Reihenfolge der Abfrageausführung untersuchen

Verteilte Persistenz von Spark

DataFrame und Persistenz von Datensätzen
Persistenz Speicherebenen
Anzeigen von persistierten RDDs
Übung: Persistierende DataFrames

Daten-Engineering-Dienst

Ad-hoc-Spark-Aufträge erstellen und auslösen
Orchestrierung einer Reihe von Aufträgen mit Airflow
Datenabfolge mit Atlas
Automatische Skalierung im Data Engineering Service

XM Arbeitsbelastung

Optimierung von Workloads, Leistung und Kapazität
Identifizieren suboptimaler Spark-Aufträge

Anhang: Arbeiten mit Datensätzen in Scala

Arbeiten mit Datensätzen in Scala
Übung: Verwendung von Datensätzen in Scala

Kontakt