Preparing with Cloudera Data Engineering (PCDE)

 

Kursüberblick

Diese viertägige praktische Schulung vermittelt die wichtigsten Konzepte und Kenntnisse, die Entwickler benötigen, um mit Apache Spark leistungsstarke, parallele Anwendungen auf der Cloudera Data Platform (CDP) zu entwickeln.

In praktischen Übungen können die Teilnehmer das Schreiben von Spark-Anwendungen üben, die sich in die CDP-Kernkomponenten integrieren lassen. Die Teilnehmer lernen, wie sie Spark SQL verwenden, um strukturierte Daten abzufragen, wie sie Hive-Funktionen verwenden, um Daten aufzunehmen und zu denormalisieren, und wie sie mit "Big Data" arbeiten, die in einem verteilten Dateisystem gespeichert sind.

Nach diesem Kurs sind die Teilnehmer in der Lage, sich realen Herausforderungen zu stellen und Anwendungen zu erstellen, um schnellere und bessere Entscheidungen zu treffen und interaktive Analysen durchzuführen, die auf eine Vielzahl von Anwendungsfällen, Architekturen und Branchen angewendet werden können.

Dieser Text wurde automatisiert übersetzt. Um den englischen Originaltext anzuzeigen, klicken Sie bitte hier.

Zielgruppe

Dieser Kurs ist für Entwickler und Dateningenieure gedacht. Von allen Teilnehmern wird erwartet, dass sie über grundlegende Linux-Erfahrungen und Grundkenntnisse in den Programmiersprachen Python oder Scala verfügen.

Voraussetzungen

Grundkenntnisse in SQL sind hilfreich. Vorkenntnisse in Spark und Hadoop sind nicht erforderlich.

Kursziele

In diesem Kurs werden Sie lernen, wie man:

  • Verteilen, Speichern und Verarbeiten von Daten in einem CDP-Cluster
  • Schreiben, Konfigurieren und Bereitstellen von Apache Spark-Anwendungen
  • Verwenden Sie die Spark-Interpreter und Spark-Anwendungen, um verteilte Daten zu untersuchen, zu verarbeiten und zu analysieren
  • Abfrage von Daten mit Spark SQL, DataFrames und Hive-Tabellen
  • Bereitstellen einer Spark-Anwendung auf dem Data Engineering Service

Kursinhalt

  • HDFS-Einführung
  • YARN-Einführung
  • Arbeiten mit RDDs
  • Arbeiten mit DataFrames
  • Einführung in Apache Hive
  • Arbeiten mit Apache Hive
  • Integration von Hive und Spark
  • Herausforderungen bei der verteilten Verarbeitung
  • Verteilte Spark-Verarbeitung
  • Verteilte Persistenz von Spark
  • Daten-Engineering-Dienst
  • Arbeitsbelastung XM
  • Anhang: Arbeiten mit Datensätzen in Scala

Preise & Trainingsmethoden

Online Training

Dauer
4 Tage

Preis
  • US $ 3.520,–
Classroom Training

Dauer
4 Tage

Preis
  • Deutschland: US $ 3.520,–
  • Schweiz: US $ 5.250,–

Derzeit gibt es keine Trainingstermine für diesen Kurs.