Menü
Menü
Werden Sie Experte mit dem
Meistern Sie mit unserem Spark Training Ihre Datenanalyse mit Text Mining und Machine Learning Methoden mit Hands-On Übungen. Profitieren Sie von Projekterfahrung unserer Experten und Cloud-Architekten mit Erfahrung direkt aus der Industrie.
Einer der nachgefragtesten Skillsets zu Zeiten von Big Data ist die Fähigkeit, große Datenmengen zu analysieren. In diesem interaktiven Kurs vermittelt Thinkport die notwendigen Grundlagen, um eigenständig mit Apache Spark Datenauswertungen durchführen zu können. Außerdem werden Performance-Tipps gezeigt und erklärt, die Ihnen helfen, große Datenmengen viel effizienter und günstiger zu verarbeiten. Das Spark Big Data Training ist plattformunabhängig und je nachdem, für welche Plattform Sie sich interessieren (AWS, Azure oder On-premise), umfasst die Agenda entsprechende Teile der Umgebung.
15.08. - 17.08.23 Spark Training für Big Data
19.09. - 21.09.23 Spark Training für Big Data
17.10. - 19.10.23 Spark Training für Big Data
\* individuelle Termine möglich
Teilnehmer können nach Abschluss…
(Hands-on Projekt: Twitter Daten)
Der Kurs ist geeignet für Personen mit…
Überblick: Machine Learning und Text Mining
Machine Learning mit MLlib
Day-Lab: Text Mining mit Machine Learning Modellen (Regression, Random Forest), Tokenization und Sentimentanalysis
Überblick: Was ist Big Data
Spark Grundlagen I: RDD
Lab: Anwendung von Dataframes
Überblick: Microsoft Azure
Python Crashkurs (optional)
Überblick: Was ist Streaming
Spark Grundlagen II: Spark Streaming
Day-Lab: Twitter Streaming mit Spark (Datenabzug, Auswertung mit Spark Streaming, Speichern in einem Datalake, und Erstellen einer Data Pipeline)
Überblick: Machine Learning und Text Mining
Machine Learning mit MLlib
Day-Lab: Text Mining mit Machine Learning Modellen (Regression, Random Forest), Tokenization und Sentimentanalysis

Die Lerninhalte unseres Spark Big Data Trainings werden von unseren Experten spannend und eingänglich vermittelt. Anhand eines real-world Use Case lernen Sie Spark als Data Analyse-Tool kennen.
Erfahren Sie mehr zu diesem Training in einem persönlichen Gespräch
Sie setzen mit uns individuelle Schwerpunkte und erhalten ein zugeschnittenes Angebot für Ihre Anforderungen 24h nach dem Termin
Hier finden Sie eine kurze Zusammenstellung von oft gestellten Fragen und den dazugehörigen Antworten.
Unter Big Data versteht man die Verarbeitung von großen und komplexen Datenmengen, die herkömmliche Datenverarbeitungstechnologien übersteigen. Diese Datenmengen können aus verschiedenen Quellen stammen, wie beispielsweise soziale Netzwerke, Sensoren, Mobilgeräte oder Transaktionssysteme.
Die Charakteristiken von Big Data sind auch durch die sogenannten „3Vs“ beschrieben:
Die Verarbeitung von Big Data erfordert spezielle Technologien und Tools wie NoSQL-Datenbanken, verteilte Dateisysteme, Hadoop, Spark und Machine Learning-Algorithmen.
Apache Spark ist ein Framework für die verteilte Datenverarbeitung, das speziell für die Verarbeitung von Big Data entwickelt wurde. Es ist in der Programmiersprache Scala geschrieben und wird von der Apache Software Foundation entwickelt. Spark bietet eine schnelle und effiziente Möglichkeit, große Datenmengen in Echtzeit zu verarbeiten und zu analysieren.
Spark hat sich zu einem der am häufigsten verwendeten Big-Data-Frameworks entwickelt und wird in verschiedenen Anwendungsbereichen eingesetzt, wie beispielsweise in der Finanzindustrie, der Gesundheitsversorgung, der Analyse von sozialen Netzwerken und im Internet der Dinge.
Spark ist darauf ausgelegt, parallele Verarbeitung auf einem Cluster von Computern auszuführen, um eine schnelle und skalierbare Verarbeitung von Daten zu ermöglichen. Es bietet eine breite Palette von APIs für die Verarbeitung von Daten in verschiedenen Formaten, einschließlich strukturierten Daten, Texten, Graphen und maschinellem Lernen.
Ein weiteres Merkmal von Spark ist die Fähigkeit, Daten im Arbeitsspeicher zu halten, was es ermöglicht, die Daten in Echtzeit zu verarbeiten und schnelle Abfragen durchzuführen. Darüber hinaus unterstützt Spark die Integration mit anderen Big-Data-Ökosystemen wie Hadoop und NoSQL-Datenbanken.
Apache Spark bietet eine Reihe von Vorteilen, die es zu einer beliebten Wahl für die Verarbeitung von Big Data machen. Hier sind einige der wichtigsten Vorteile von Apache Spark:
Insgesamt bietet Apache Spark eine leistungsstarke und flexible Plattform für die Verarbeitung von Big Data und wird von vielen Unternehmen und Organisationen für die Verarbeitung von Daten in verschiedenen Anwendungsbereichen eingesetzt.