Big Data - Data Engineering Grundlagen (54010)

Course Overview

Das Thema Big Data ist aktueller denn je, pro Tag werde viele Petabyte an Daten generiert und warten darauf analysiert und verarbeitet zu werden.

Mit dem Apache Hadoop Ökosystem wurde eine Möglichkeit geschaffen, große Datenmengen in einem verteilten System zu persistieren und Analysen und Vorhersagen auszuführen.

Die damit verbundenen Begriffe rund um Data Science und Data Engineering sind allgegenwärtig. Nur was verbirgt sich hinter all den Trendbegriffen?

Die Schulung gibt einen ersten Ein- und Überblick über die Komponenten, Methoden und Begrifflichkeiten zu diesen Themen. Dieser beschränkt sich nicht auf reine Theorie, sondern ermöglicht Ihnen erste praktische Erfahrungen anhand eines fiktiven Projekts zu sammeln.

Nach einer Einführung in die Paradigmen von Big Data lernen Sie anhand eines realen Twitter Datensets, wie einfach Sie Daten in den Hadoop Cluster streamen können. Danach nehmen Sie eigenhändig Daten-Transformationen vor und orientieren sich dabei immer am besprochenen Data Lake Konzept. Am Ende des Data Engineering Parts haben Sie die Daten soweit verdichtet und aufbereitet, dass Sie im nächsten Schritt mit Data Science Methoden Analysen darauf ausführen.

Who should attend

Das Seminar richtet sich an Datenbank Experten, BigData Experten, Sicherheitsexperten, Systemadministratoren, Netzwerkadministratoren, Data Science Mitarbeiter, Entwickler sowie alle Interessierten, die dem Thema BigData tiefer unter die Haube schauen möchten.

Prerequisites

Neben generellen IT Kenntnissen in SQL und Programmierung sind keine besonderen Vorkenntnisse erforderlich. Der vorherige Besuch unseres Grundlagenseminars Big Data – Definitionen, Technologien und Produkte im Überblick erleichtert das Verständnis.

Course Content

Data Engineering

Einführung Big Data:

Was ist Big Data?
Die drei Vs
Abgrenzung zu relationalen Datenbanken
Data Lake und hybride Architektur Konzept

IT Grundlagen:

Basiswissen Netzwerke
Basiswissen verteilte Systeme

Ökosystem Hadoop:

Hadoop Cluster Architektur
Überblick über die Hadoop Distributionen
HBase
HDFS
Hive
Kafka
NiFi
Pig
Spark / Spark Streaming
Sqoop
Ambari
Zookeeper
Überblick weiterer Komponenten

Security in Hadoop:

Ranger
Kerberos

Hands on Hadoop – Praxisteil:

HDFS Puzzle
Administration Grundlagen
Ambari Monitoring M/R
HDFS Strukturen anlegen
Zookeeper Nodes
HBase
HDFS
Hive
Kafka
NiFi
Pig
Spark / Spark Streaming
Sqoop

Vertiefung der Hadoop Komponenten - Praxisteil:

Streaming
Buffering
Archivierung
Transformation
Analyse

Prices & Delivery methods

Online Training

Duration
3 days

Price

on request

Dates and Booking

Request a date

Classroom Training

Duration
3 days

Price

on request

Dates and Booking

Request a date

Currently there are no training dates scheduled for this course.

Request a date