Detaillierter Kursinhalt
Modul 1: Einführung
- Stellen Sie die Kursziele vor.
- Zeigen Sie, wie Apache Beam und Dataflow zusammenarbeiten, um die Datenverarbeitungsanforderungen Ihres Unternehmens zu erfüllen.
Modul 2: Übertragbarkeit von Strahlen
- Fassen Sie die Vorteile des Beam Portability Framework zusammen.
- Passen Sie die Datenverarbeitungsumgebung Ihrer Pipeline mithilfe benutzerdefinierter Container an.
- Überprüfung der Anwendungsfälle für sprachübergreifende Transformationen.
- Aktivieren Sie das Portability Framework für Ihre Dataflow-Pipelines.
Modul 3: Trennung von Datenverarbeitung und Speicherung mit Dataflow
- Aktivieren Sie Shuffle und Streaming Engine für Batch- bzw. Streaming-Pipelines, um maximale Leistung zu erzielen.
- Ermöglichen Sie eine flexible Ressourcenplanung für eine kosteneffizientere Leistung.
Modul 4: IAM, Kontingente und Berechtigungen
- Wählen Sie die richtige Kombination von IAM-Berechtigungen für Ihren Dataflow-Auftrag.
- Ermitteln Sie Ihren Kapazitätsbedarf, indem Sie die entsprechenden Quoten für Ihre Dataflow-Jobs überprüfen.
Modul 5: Sicherheit
- Wählen Sie Ihre zonale Datenverarbeitungsstrategie mit Dataflow, je nach Ihren Anforderungen an die Datenlokalisierung.
- Umsetzung bewährter Verfahren für eine sichere Datenverarbeitungsumgebung.
Modul 6: Wiederholung von Strahlenkonzepten
- Überprüfung der wichtigsten Konzepte von Apache Beam (Pipeline, PCollections, PTransforms, Runner, Lesen/Schreiben, Utility PTransforms, Side Inputs), Bundles und DoFn Lifecycle.
Modul 7: Fenster, Wasserzeichen, Auslöser
- Implementieren Sie eine Logik zur Verarbeitung Ihrer verspäteten Daten.
- Überprüfen Sie die verschiedenen Arten von Auslösern.
- Überprüfung der wichtigsten Streaming-Konzepte (unbeschränkte PCollections, Fenster).
Modul 8: Quellen und Senken
- Schreiben Sie die E/A Ihrer Wahl für Ihre Dataflow-Pipeline.
- Stimmen Sie Ihre Quelle/Senke-Transformation für maximale Leistung ab.
- Benutzerdefinierte Quellen und Senken mit SDF erstellen.
Modul 9: Schemata
- Einführung von Schemata, die Entwicklern eine Möglichkeit bieten, strukturierte Daten in ihren Beam-Pipelines auszudrücken.
- Verwenden Sie Schemata, um Ihren Beam-Code zu vereinfachen und die Leistung Ihrer Pipeline zu verbessern.
Modul 10: Zustand und Zeitgeber
- Ermittlung von Anwendungsfällen für die Implementierung von Status- und Zeitgeber-APIs.
- Wählen Sie den richtigen Typ von Status und Zeitgebern für Ihre Pipeline.
Modul 11: Bewährte Praktiken
- Implementierung bewährter Verfahren für Dataflow-Pipelines.
Modul 12: Datenfluss-SQL und DataFrames
- Entwickeln Sie eine Beam-Pipeline mit SQL und DataFrames.
Modul 13: Beam Notebooks
- Prototyping Ihrer Pipeline in Python mit Beam-Notebooks.
- Verwenden Sie Beam-Magie, um das Verhalten der Quellenaufzeichnung in Ihrem Notebook zu steuern.
- Starten Sie einen Auftrag in Dataflow von einem Notebook aus.
Modul 14: Überwachung
- Navigieren Sie durch die Benutzeroberfläche der Dataflow-Auftragsdetails.
- Interpretieren Sie Job-Metrics-Diagramme, um Regressionen in der Pipeline zu diagnostizieren.
- Setzen Sie Alarme für Dataflow-Aufträge mit Cloud Monitoring.
Modul 15: Protokollierung und Fehlerberichterstattung
- Verwenden Sie die Dataflow-Protokolle und Diagnose-Widgets, um Probleme in der Pipeline zu beheben.
Modul 16: Fehlersuche und Fehlerbehebung
- Verwenden Sie einen strukturierten Ansatz zum Debuggen Ihrer Dataflow-Pipelines.
- Untersuchen Sie die häufigsten Ursachen für Rohrleitungsausfälle.
Modul 17: Leistung
- Verstehen Sie Leistungsüberlegungen für Pipelines.
- Überlegen Sie, wie sich die Form Ihrer Daten auf die Leistung der Pipeline auswirken kann.
Modul 18: Testen und CI/CD
- Testansätze für Ihre Dataflow-Pipeline.
- Prüfen Sie die verfügbaren Frameworks und Funktionen, um Ihren CI/CD-Workflow für Dataflow-Pipelines zu optimieren.
Modul 19: Verlässlichkeit
- Implementieren Sie Best Practices für die Zuverlässigkeit Ihrer Dataflow-Pipelines.
Modul 20: Flex-Vorlagen
- Verwendung von Flex-Vorlagen zur Standardisierung und Wiederverwendung von Dataflow-Pipeline-Code.
Modul 21: Zusammenfassung
- Zusammenfassung.