Wachstumspotenzial der Daten im Unternehmen optimal ausnützen:Data Hubs, Data Lakes und Data Warehouses effizient kombinieren
20. Mai 2022Daten stellen für Unternehmen eine unschätzbare Quelle potenziellen Wachstums dar. Immer mehr Organisation versuchen deshalb, sich durch datengesteuerte Entscheidungsfindung auf Erfolgskurs zu bringen. Die Umwandlung von einer intuitiv getriebenen zu einer datengesteuerten Unternehmenskultur bedarf jedoch einer Infrastruktur, die die Anwendungen auch präzise unterstützen kann.
Generell werden Daten in Data Hubs beispielsweise in anderer Weise erfasst und verwaltet als in Data Lakes oder Data Warehouses. Um das passende Daten-Repository für ein Projekt zu identifizieren und die Daten effektiv zusammenführen, verwalten und analysieren zu können, sollten die Verantwortlichen in den Unternehmen wissen, wie sich die Systeme voneinander unterscheiden. Genau hier fehlt vielen Datenmanagern aber die erforderliche Kompetenz.
In dem Gartner Report von 2020 „Data Hubs, Data Lakes und Data Warehouses: How They Are Different and Why They Are Better Together“ gehen die Analysten Ted Friedman und Nick Heudecker auf die zentrale Bedeutung ein, die der Infrastruktur bei der Auswertung und Analyse von Unternehmensdaten zukommt. Danach entscheiden sich viele Analysten und Datenverantwortliche – oft aus Unwissenheit – für eine Dateninfrastruktur, die ihre Anwendung nicht oder nur unzureichend unterstützt. Von den Kunden-Anfragen nach Data Hubs, die bei Gartner in den Jahren 2018 bis 2019 eingingen, verwechselten 25 Prozent einen Data Hub mit einem Data Lake.
In der Anfangsphase der Umstellung mögen fehlende Kenntnisse noch tolerierbar sein. Entscheider, die ihre Projekte jedoch langfristig erfolgreich und profitabel machen wollen, sollten wissen, in welcher Form die einzelnen Systeme Daten sammeln, speichern oder analysieren. Sie sollten außerdem informiert sein, wie sie diese kombinieren können, um ihre Erkenntnisse weiter zu verfeinern oder das Anwendungsspektrum zu erweitern. Nur so werden sich die enormen Investitionen, die mit der Umstellung auf eine datengesteuerte Unternehmenskultur verbunden sind, letztlich auch rentieren.
Die Unterschiede kennen
Worin bestehen aber nun die Unterschiede zwischen den Daten-Systemen und in welcher Weise können sie Unternehmen bei ihren Anwendungen unterstützen? Während ein Data Warehouse für das Sammeln, Sichern und Analysieren von strukturierten Daten verwendet wird, speichert ein Data Lake Daten in ihrem unstrukturierten oder halbstrukturierten Rohformat und hält sie für die Analyse bereit.
Data Hubs führen die Daten anschließend zusammen und bereiten sie so auf, dass sie für mehrere Anwendungen gleichzeitig und bei voller Datenintegrität genutzt werden können. Unternehmen sollten einen Data Hub daher als Plattform nutzen, um Business Intelligenz (BI) für alle involvierten Entscheider und Mitarbeiter nutzbar zu machen.
Viele Mitarbeiter unterliegen allerdings dem Irrglauben, dass die drei Systeme austauschbar sind und die gleichen Aufgaben ausführen – nur eben auf unterschiedliche Weise. Führungskräfte sollten daher die unterschiedlichen Funktionsweisen der drei Systeme nicht nur genau kennen, sondern auch unternehmensweit kommunizieren und damit die Datendemokratisierung in ihrer Organisation vorantreiben.
Das Abfragen eines Data Lake mittels explorativer Datenanalyse ergibt beispielsweise nur dann wirklich Sinn, wenn die Mitarbeiter ihre Erkenntnisse anschließend in einer strukturierten Umgebung anwenden. Zum Beispiel, indem sie bei einem Data Warehouse einen Data Lake als Quelle hinzufügen. In Kombination mit weiteren Quellen von Echtzeit- oder Batchdaten können Analysten Datenmuster und Trends identifizieren und wichtige Informationen extrahieren. Die gewonnenen Erkenntnisse dienen dann als Basis für die Entscheidungs- und Führungsprozesse im Unternehmen.
Die Aufgabe eines Data Hub besteht nicht nur darin, BI-Daten aufzubereiten und zur Verfügung zu stellen. Durch das Generieren von Datenflüssen zwischen einzelnen Endpunkten können diese gezielt von den Verantwortlichen gesteuert werden. Informationen aus unterschiedlichsten Quellen lassen sich so im gesamten Unternehmen abrufen, harmonisieren und transformieren.
Gartner rät Unternehmen, ihre Datensysteme gemeinsam mit anderen in möglichst vielen Konstellationen einzusetzen und zu prüfen, welche Kombinationen die vielversprechendsten Ergebnisse liefern. Auf diese Weise erhalten sie nicht nur aussagefähigere Daten-Erkenntnisse, sondern erweitern unter Umständen auch ihre Anwendungsbereiche. Daten, die an ein Data Warehouse oder einen Data Lake übergeben werden, sollten dabei immer einen Data Hub als Vermittlungs- und Konvertierungs-Punkt nutzen.
Komplexität bewältigen
Das exponentielle Wachstum bei der Datenerfassung, -Verwaltung und -Analyse führt zwar zu umfassenderen und präziseren Erkenntnissen, benötigt aber auch eine wesentlich leistungsstärkere und komplexere Infrastruktur. Da die angebundenen Dateninfrastrukturen kontinuierlich weiterentwickelt werden, müssen Infrastrukturen heutzutage in der Lage sein, sich an ständig neue Anforderungen problemlos anzupassen. Starre Strukturen, die sich über einen längeren Zeitraum nicht verändern, gehören definitiv der Vergangenheit an.
Unternehmen sollten daher diesem flexiblen Ansatz, der Daten aus unterschiedlichen Quellen und in unterschiedlichen Formaten verarbeitet, unbedingt den Vorzug zu geben und die Herausforderungen durch mehr Komplexität und Disruption nicht scheuen. Auf diese Weise werden sie differenzierte Erkenntnisse erzielen können und den Vorsprung zur Konkurrenz ausbauen.
Damit die Umstellung auf ein datengesteuertes Unternehmen langfristig Erfolg hat, muss Datenkompetenz in den Unternehmen oberste Priorität erhalten. Ziel sollte sein, alle Mitarbeiter auf ein gemeinsames Wissenslevel zu bringen und fehlende Kenntnisse durch Schulungen auszugleichen. Es ist wichtig, dass die Leiter der Datenabteilung dieselben Vorstellungen von der Rolle und Bedeutung bestimmter Infrastrukturtypen haben wie die Mitarbeiter, die sie täglich implementieren und nutzen. Wenn alle diesbezüglich an einem Strang ziehen, werden Unternehmen ihre Datenstrategien auf einer soliden, zukunftsfähigen Grundlage weiterentwickeln und dauerhaft von ihr profitieren.
Thomas Heuer ist Sales Director für die Region DACH bei WhereScape.