Einsatz von Big Data und KI deutlich vereinfachtData Engineers und Data Scientists arbeiten Hand in Hand

19. Juli 2019

Unified Analytics soll es Unternehmen erleichtern, die historische Daten wie auch Streaming-Daten für die Modellierung von Geschäftsvorgängen heranzuziehen. Dazu müssen Datenpipelines über verschiedenste Datenspeichersysteme hinweg aufgebaut werden. Dazu ist die enge Zusammenarbeit von Datenwissenschaftlern und –Ingenieuren sowie den Spezialisten in den Fachabteilungen nötig. Nur so lassen sich Innovationen – gestützt durch Datenmodelle und Analyseprojekte, die mit Hilfe von Künstlicher Intelligenz und maschinellen Lernen (ML) verbessert wurden – für den Unternehmenserfolg umsetzen.

Der Einsatz von Künstlicher Intelligenz (KI) und der Technologie rund um „Big Data“ treiben die Innovationen in allen Bereichen voran. Doch es erweist sich in der Praxis als sehr schwierig, diese Technologien so zu verwenden, dass schnell ein echter Nutzen für das Business entsteht. Hier kommt die Unified Analytics Platform von Databricks ins Spiel.

Anzeige
leaderboard ad banner pisa

Sie lässt die verschiedenen betroffenen Mitarbeiter im Unternehmen besser zusammenarbeiten: „Data Engineers“ müssen die Datenqualität sicherstellen und die Daten aus den verschiedensten Formaten (historische Daten wie auch Streaming-Daten) und aus den unterschiedlichsten Speichersystemen zusammenführen und regelrechte Daten-Pipelines aufbauen. Die „Data Scientists“ dagegen erarbeiten ML-Modelle und testen deren Relevanz für die Aufgabenstellungen. Doch all diese Aktionen sind nicht einfach in echten Mehrwert für das Unternehmen umzusetzen. Denn es werden dazu verschiedenste Tools eingesetzt – Programmiersprachen wie Python oder R, aber auch Deep Learning-Techniken – so dass sich viele Unternehmen dabei regelrecht verzetteln.

Insgesamt gehen laut David Wyatt, Vice President und General Manager für den Bereich EMEA bei Databricks, 90 Prozent des Zeitaufwands auf das Konto für das Erstellen von Data Pipelines – und das alles nur, um die gesamten Daten für die gemeinsame Analyse aufzubereiten. Und wenn es um Daten geht, steht auch noch die Frage nach deren Sicherheit immer mit auf der Agenda. Das alles verkompliziere die Aufgabenstellung.

Mit der Unified Analytics Platform von Databricks soll dies alles vereinfacht werden – verspricht Nicholas Peart, Vice President Marketing EMEA bei Databricks. Diese Plattform basiert auf dem Open-Source-Projekt „Apache Spark“ und soll die verschiedensten Daten nahezu in Echtzeit zur Verfügung stellen können. „Die Unified Analytics Platform wird als Cloud angeboten, so dass die Inbetriebnahme für Anwender sehr einfach gehalten ist“, erklärt Peart.

Generell können die Mitarbeiter aus den verschiedenen Fachabteilungen die daraus resultierenden Ergebnisse in Form von Dashboards verwenden. Damit wird der Einsatz von Big Data und KI deutlich vereinfacht.

Enge Kooperation mit Microsoft

Die Verfügbarkeit von Azure Databricks, einem integrierten Microsoft Azure-Dienst, beschleunigte bereits im Jahr 2018 die Einführung der Unified Analytics-Plattform. Azure Databricks wurde in Zusammenarbeit mit Microsoft entwickelt.

Sie soll das Verarbeiten großer Datenmengen und KI-Lösungen vereinfachen, indem die Vorteile von Databricks und Azure kombiniert wurden: Azure-Kunden sind in der Lage, Azure Databricks von Microsoft zu beziehen und sozusagen auf Knopfdruck zu nutzen, wie sie es von jedem anderen Azure-Service gewohnt sind.

Delta Lakes bringen mehr Zuverlässigkeit

Bereits im April 2019 hat Databricks mit Delta Lake ein Open-Source-Projekt vorgestellt, das die Zuverlässigkeit von Data Lakes beim Verarbeiten und Analysieren von Batch- und Streaming-Daten erhöhen soll. Dazu kommt eine Speicherschicht für das Big-Data-Framework Apache Spark und somit auch für die Unified Analytics-Plattform zum Einsatz.
Laut Wyatt besteht oftmals beim Einsatz von Data Lakes eine große Herausforderung: In punkto Datenzuverlässigkeit würden sich aus fehlgeschlagenen Writes, Schema-Fehlanpassungen und Dateninkonsistenzen beim Mischen von Batch- und Streaming-Daten ergeben. Hier würde das Konzept eines „Delta Lake“ eine höhere Zuverlässigkeit bieten. Denn dabei könne man Transaktionen über Streaming- und Batch-Daten und über mehrere gleichzeitige Schreib- und Leseoperationen hinweg verwalten.

Die Delta Lakes lassen sich –so Wyatt – in jeden Apache-Spark-Job als Datenquelle integrieren, sodass Unternehmen Datenzuverlässigkeit mit minimalen Änderungen an ihren Datenarchitekturen erhalten würden. Unternehmen hätten keine Ressourcen mehr für den Aufbau komplexer und fragiler Datenpipelines aufzuwenden, um Daten über Systeme hinweg zu übertragen. Stattdessen könnten Entwickler bei den meisten ihrer Anwendungen Daten zuverlässig hochladen und abfragen. (rhh)

Databricks

Lesen Sie auch