Detaillierter Kursinhalt
Grundlagen für Big Data Analytics
- Überblick über Big Data Analytics
- Datenspeicherung: HDFS
- Verteilte Datenverarbeitung: YARN, MapReduce und Spark
- Datenverarbeitung und -analyse: Hive und Impala
- Datenbank-Integration: Sqoop
- Andere Daten-Tools
- Erläuterung des Übungsszenarios
Einführung in Apache Hive und Impala
- Was ist Hive?
- Was ist Impala?
- Warum Hive und Impala verwenden?
- Schema und Datenspeicherung
- Vergleich von Hive und Impala mit herkömmlichen Datenbanken
- Anwendungsfälle
Abfragen mit Apache Hive und Impala
- Datenbanken und Tabellen
- Grundlegende Syntax der Hive- und Impala-Abfragesprache
- Datenarten
- Hue zum Ausführen von Abfragen verwenden
- Beeline verwenden (Hive's Shell)
- Verwendung der Impala-Shell
Allgemeine Operatoren und eingebaute Funktionen
- Betreiber
- Skalare Funktionen
- Aggregierte Funktionen
Data Management
- Datenspeicherung
- Datenbanken und Tabellen erstellen
- Laden von Daten
- Ändern von Datenbanken und Tabellen
- Vereinfachung von Abfragen mit Ansichten
- Speichern von Abfrageergebnissen
Datenspeicherung und Leistung
- Partitionierung von Tabellen
- Laden von Daten in partitionierte Tabellen
- Wann wird die Partitionierung verwendet?
- Auswahl eines Dateiformats
- Verwendung der Dateiformate Avro und Parquet
Arbeiten mit mehreren Datensätzen
- UNION und Joins
- Behandlung von NULL-Werten in Joins
- Erweiterte Verknüpfungen
Analytische Funktionen und Fensterung
- Analytische Funktionen verwenden
- Andere analytische Funktionen
- Schiebefenster
Komplexe Daten
- Komplexe Daten mit Hive
- Komplexe Daten mit Impala
Analysieren von Text
- Verwendung regulärer Ausdrücke mit Hive und Impala
- Verarbeitung von Textdaten mit SerDes in Hive
- Sentiment-Analyse und n-Gramme in Hive
Apache Hive-Optimierung
- Verständnis der Abfrageleistung
- Kostenbasierte Optimierung und Statistik
- Eimer
- ORC-Datei Optimierungen
Apache Impala-Optimierung
- Wie Impala Abfragen ausführt
- Verbesserung der Impala-Leistung
Erweitern von Hive und Impala
- Benutzerdefinierte Funktionen
- Parametrisierte Abfragen
Die Wahl des besten Werkzeugs für die Aufgabe
- Vergleich von Hive, Impala und
- Relationale Datenbanken
- Was soll ich wählen?
CDP Öffentliches Cloud Data Warehouse
- Data Warehouse-Übersicht
- Auto-Skalierung
- Verwaltung von virtuellen Lagern
- Abfrage von Daten mit CLI und Integration von Drittanbietern
Anhang: Apache Kudu
- Was ist Kudu?
- Kudu Tische
- Verwendung von Impala mit Kudu