Automatisierung im Data-WarehouseNur so lässt sich die Datenflut beherrschen
9. November 2021Lange schon sind „die Daten“ zu einem der wertvollsten Assets von Unternehmen geworden. Durch die geschickte Verknüpfung und richtige Verwertung können Daten zu einer wertvollen Ressource für neue, digitale, datenbasierte oder auch nur datengestützte Geschäftsmodelle werden, die Unternehmen attraktive Möglichkeiten für neue Geschäftsfelder, Produktentwicklungen oder Serviceangebote ermöglichen.
Unternehmen sammeln und speichern ihre Geschäftsdaten in der Regel in Data-Warehouses (DWH), um sie später für Analysezwecke aufbereiten zu können. Die gigantischen DWH-Datenspeicher importieren regelmäßig eine große Flut von Daten aus unterschiedlichen Quellen, wie zum Beispiel internen Abteilungen, wie Vertrieb und Finanzen, Kundenapps oder Partnersystemen. Anschließend durchlaufen die Daten Formatierungs- und Importprozesse, bei denen sie mit den bereits im Warehouse enthaltenen Informationen abgeglichen werden, sodass Anwender den Zugriff auf die gewünschten Inhalte in einem passenden Format erhalten.
In diesem Punkt unterscheidet sich ein Data-Warehouse, das in der Regel Kennzahlen oder Transaktionsdaten speichert, von einem Data-Lake, der Daten in ihrem ursprünglichen Rohformat abspeichert. Es spielt dabei keine Rolle, ob die Daten strukturiert oder unstrukturiert sind, denn sie müssen vor der Speicherung weder validiert oder umformatiert werden. Data-Lakes eignen sich aufgrund ihrer riesigen Informationsmenge vor allem für flexible Analysen im Big Data Umfeld, sind jedoch für klassische Business-Analysen in der Regel zu unhandlich und wenig strukturiert.
Historisch gewachsene Data-Warehouses stoßen an ihre Grenzen
Unternehmen, die ihre Daten in einer strukturierten Umgebung verwalten und analysieren wollen, greifen deshalb meistens zu einer Data-Warehouse-Lösung. Im Zeitalter einer scheinbar unbegrenzten Datenflut stoßen historisch gewachsene Data-Warehouses jedoch schnell an ihre Grenzen.
Anforderungen wie Agilität, Flexibilität, Skalierbarkeit und eine immer schnellere Time-to-Market Notwendigkeit lassen sich auf Basis traditioneller DWH-Strukturen nur schwer oder gar nicht bewältigen. Deswegen setzen immer mehr Daten-Infrastruktur-Verantwortliche Data-Warehouse-Automation (DWA) ein oder denken zumindest über einen Einsatz nach.
Automatisierung als wettbewerbsentscheidender Faktor
Nachdem die Daten erfolgreich in eine DWH-Datenbank importiert wurden, werden diese in der Regel bereinigt, umgewandelt, evaluiert und mit Tags versehen. Auf diese Weise lassen sie sich einfacher zuordnen, weiterverarbeiten und auf ihre Compliance hin überprüfen. Wenn jedoch immer größere Mengen von Daten und Informationen in ein Data-Warehouse integriert werden, sind die traditionellen Ansätze zum Kompilieren und Verwalten riesiger Datenmengen durch manuelle ETL-Codierung ab einem bestimmten Punkt nicht mehr effektiv.
Im Zeitalter der Digitalisierung werden datengetriebene Geschäftsmodelle zunehmend zu einem ganz zentralen und wettbewerbsentscheidenden Faktor. Die Daten und Informationen, die Maschinen, Dienste und Sensoren liefern, können, sofern richtig genutzt, eine wertvolle Basis für weitreichende, betriebswirtschaftliche Entscheidungen bilden. Müssen die Daten in den DWH jedoch für jede Anwendung erst umständlich aus verschiedenen internen Quellen konsolidiert werden, kostet dies unnötige Zeit. Mit geeigneten DWH-Automatisierungs-Methoden lassen sich Standardprozesse wie Datenaufnahme und -verarbeitung erheblich beschleunigen, denn sie reduzieren manuelle Aufgaben wie zum Beispiel das Generieren und Bereitstellen von ETL-Codes auf einem Datenbankserver auf ein Minimum.
DWH-Automatisierungs-Tools verwenden einen ganzheitlichen Ansatz, um beispielsweise die Planungs-, Modellierungs- und Integrationsschritte des gesamten Data-Warehouse-Lebenszyklus zu orchestrieren, anstatt die Prozesse einzeln durchzuführen, wie es im herkömmlichen Data-Warehouse-Design gehandhabt wird. Unternehmen sparen sich so die manuellen, fehleranfälligen Eingriffe durch teure Expertenteams am Ende jedes Prozesses.
Besonders bewährt hat sich ein automatisierter Template-Ansatz, bei dem die Funktionalitäten einzelner Prozess-Pattern für den Datenintegrationsprozess implementiert, getestet und als Templates hinterlegt wurden. Anwender sollten darauf achten, dass die ausgewählte Automatisierungs-Methode das Hinzufügen eigener Datenquellen erlaubt, sodass die Daten auf Grundlage spezifischer, individueller Anforderungen modelliert werden können. Auf diese Weise lassen sich alle wiederholbaren Aufgaben unter vollständiger Kontrolle des IT-Teams komplett automatisieren und die Daten wesentlich schneller aufbereiten und bereitstellen.
Automatisierung verändert die Art, wie Daten genutzt werden
In einem immer dynamischer werdenden und kostenbewussterem Geschäftsumfeld, trägt Automatisierung entscheidend dazu bei, die Prozesse in den DWH schneller, effizienter und kostengünstiger zu machen. Mit geeigneten Data-Warehouse-Automatisierungs-Werkzeugen (DWA-Tools) lässt sich die Speicherung, Pflege und Erweiterung der unternehmensweiten Daten oft in nur wenigen Klicks realisieren. Aktivitäten, die manuell durchgeführt, einen Großteil der gesamten Entwicklungszeit einnehmen würden. Vor diesem Hintergrund scheint es zunehmend fahrlässig, dass einige Datenteams immer noch ETL-Tools aus den 90er Jahren einsetzen und für die Erstellung und Steuerung moderner Datenstrukturen einen Code manuell eingeben.
Automatisierte DWH-Prozesse geben den Datenteams außerdem mehr Zeit, sich der Umsetzung strategischer Ziele zu widmen, wie zum Beispiel der Bereitstellung einer Infrastruktur und/oder der Durchführung von Projekten innerhalb vorgegebener agiler Phasen.
Mit agilen, transformativen Methoden wie DevOps oder DataOps lässt sich darüber hinaus nicht nur die Effizienz von DWH-Prozessen verbessern, sondern macht es auch möglich, die Art, wie Daten im gesamten Unternehmen bereitgestellt und genutzt werden, dauerhaft und grundlegend zu verändern.
Um datengetriebene, geschäftliche Entscheidungen punktgenau zu unterstützen, ist es vorteilhaft, die Prototypen auf Basis realer Unternehmensdaten zu bauen. Die Daten werden dabei nach dem Vorbild ihrer Quellsysteme modelliert. Bevor das Modell erstellt wird, schauen sich Anwender und Entwickler die Daten gemeinsam an, holen Inputs und Feedback ein und erstellen, falls notwendig, mehrere Iterationen.
Am Ende können die DWH-Entwickler eine Lösung implementieren, die den Anforderungen der Anwender vollumfänglich entspricht. Dieser Automatisierungsansatz ermöglicht nicht nur viel Flexibilität bei der Bereitstellung der Daten, sondern auch beim Verwalten von Änderungen. Außerdem können die Verantwortlichen so bereits im Vorfeld genau abzuschätzen, wie sich eine bestimmte Software-Konfiguration später im realen Data-Warehouse verhalten wird.
Aktuell stellen sich immer mehr Unternehmen die Frage, wie sie Daten gewinnbringend in ihrem Unternehmen einsetzen können. Diese datengetriebenen Geschäftsmodelle kommen nicht um die Modernisierung ihres Data Warehouses herum. Denn eine der wichtigsten Aufgaben bei dieser Modernisierung ist die Automatisierung des DWHes. Sie entscheidet als Methode über die Aufbereitung, Bereitstellung und Analyse von Daten, um innovative ,zukunftsfähige Entscheidungen zu treffen und zeitnah den nötigen Return on Investment zu erzielen.
Thomas Heuer ist Sales Director DACH bei Wherescape.