Data Warehouse oder Data Lakehouse?Die Zukunft für den Erfolg datengesteuerter Unternehmen

14. Dezember 2021

Wie viele andere Technologien, z. B. die CD oder die Diskette, hat auch das Data Warehouse eine gute Zeit gehabt, aber neue Anwendungsfälle haben neue Technologien hervorgebracht. Im Jahr 2021 ein Data Warehouse als primäre Datenarchitektur zu verwenden wäre, als wenn man eine CD zum Streamen von Musik verwenden würde.

Künstliche Intelligenz (KI) wird für jedes Unternehmen zu einer Priorität, die eine neue Datenarchitektur erfordert, um sich für die Zukunft zu rüsten. Wie sieht die Antwort darauf aus? Das Data Lakehouse ist eine offene Datenarchitektur, die das Beste aus Data Warehouses und Data Lakes in einer Plattform vereint.

Unternehmen können jetzt alle ihre Daten – strukturierte, unstrukturierte und halbstrukturierte – in einem offenen Data Lake speichern, der Qualität, Leistung, Sicherheit und Governance bietet. Dies ist die Zukunft für den Erfolg datengesteuerter Unternehmen. In diesem Beitrag werden wir die Hauptunterschiede zwischen einem Data Warehouse und einem Data Lakehouse untersuchen und erläutern, warum ein Lakehouse die bessere Datenarchitektur ist.

Die proprietäre Seite, also ein Data Warehouse, wurde entwickelt, um ausschließlich strukturierte oder halbstrukturierte Daten für SQL-basierte Analysen und Business Intelligence zu speichern und zu verwalten, meist im JSON-Format. In der Regel sind es die wertvollen Geschäftsdaten, die kuratiert und in Data Warehouses hochgeladen werden, die für hohe Leistung und Zuverlässigkeit optimiert sind.

Dieses Konzept ist im Vergleich zu Data Lakes mit weitaus höheren Kosten verbunden. In der Vergangenheit sind Data Warehouses auch an funktionale Grenzen gestoßen, da weder gleichzeitige ETL- (Extract, Transform, Load) und BI-Abfragen, noch Streaming-Anwendungen möglich waren. In ihrer jetzigen Form können sie keine unstrukturierten Daten wie Bilder, Sensordaten, Dokumente und Videos verarbeiten. Außerdem bieten sie nur begrenzte Unterstützung für maschinelles Lernen und können beliebte Open-Source-Bibliotheken wie TensorFlow, PyTorch und andere Python-basierte Bibliotheken nicht direkt nativ unterstützen.

Vom Data Lake zum Data Swamp

Dies ist der Grund, warum Unternehmen auf der ganzen Welt große Datenmengen in Data Lakes aufbewahrt und nur Teilmengen in das Data Warehouse verschoben haben, um BI- und SQL-Anwendungsfälle auszuführen. Dies hat zu den bekannten „Data Swamps“ geführt, die voll mit Daten sind, die niemand auswerten kann.

Data Lakes sind kostengünstige Speichersysteme, die Daten in jedem beliebigen Format speichern können. Die meisten Unternehmen haben ihre Daten jedoch in offenen Formaten gespeichert, um eine Vielzahl verschiedener Tools und Anwendungen nutzen zu können, um Herstellerabhängigkeiten sogenannte Vendor-Lock-Ins zu vermeiden und die Daten zugänglich zu machen.

Andererseits mangelt es diesen Low-Code-Systemen an Sicherheit, Qualität und Leistung. Das hat dazu geführt, dass die Unternehmen viel Zeit damit verbringen, die Daten in ein Format umzuwandeln, das für ihr Data Warehouse geeignet ist, wobei naturgemäß viele Fehler auftreten.

Data Lakehouse

Die innovativsten Unternehmen kombinieren heute das Beste aus Data Warehouse und Data Lake. Das Ergebnis ist das Data Lakehouse. Die Architektur ermöglicht effiziente und stabile KI und BI direkt auf riesigen Datenmengen, die in Data Lakes gespeichert sind. Sie sind in der Lage, mit allen Datenformaten zu arbeiten, weshalb sie an den Data Lakes ansetzen, wo die meisten Daten in die Infrastruktur gelangen und somit ein Data Warehouse ersetzen.

Diese Architektur verfügt über die SQL- und Leistungsfunktionen wie Indizierung, Caching und MPP-Verarbeitung, die eine schnelle BI ermöglichen, sowie über direkten Dateizugriff und direkte native Unterstützung für Python, Data Science und KI-Frameworks.

Das Data Lakehouse ist keine Zukunftsvision und viele Unternehmen profitieren bereits jetzt. Ein Beispiel ist das in Berlin ansässige Unternehmen Solytic, das Solaranlagen überwacht und analysiert. Das Problem der Firma war der Predictive Maintenance-Anwendungsfall bei steigenden Datensätzen. Das Data Engineering-Team sah sich mit einem 1.500-prozentigen Anstieg des Datenvolumens konfrontiert, das von den in den Solarmodulen integrierten IoT-Sensoren erzeugt wurde und musste eine neue Lösung finden. 10.000 Events pro Sekunde mussten bereinigt, angereichert und aggregiert werden, damit die Data Scientists sie abfragen und ihre Analysen durchführen konnten.

Das Team entschied sich für eine Lakehouse-Architektur, um die Erkenntnisse aus allen Daten, die sich bereits im Data Lake befanden, zu nutzen und die Kunden proaktiv über potenzielle Leistungsprobleme zu informieren, bevor sie direkt davon betroffen sind. Das Team war in der Lage, innerhalb eines Jahres schnell von 20.000 auf 300.000 Solarmodule zu skalieren. Da die Lakehouse-Architektur nun vollständig zugänglich ist, kann das Daten-Analyseteam in Zukunft weitere innovative Optionen erkunden.

Warehouse vs. Lakehouse

Das obige Beispiel verdeutlicht den Übergang von geschlossenen zu offenen Architekturen, die in Cloud-Umgebungen betrieben werden. Werfen wir daher einen kurzen Blick auf die wichtigsten Unterschiede zwischen einem Warehouse und einem Lakehouse. Die Lakehouse-Infrastruktur ist offen und baut auf bestehenden Data Lakes auf, die oft mehr als 90 Prozent der Daten im Unternehmen enthalten.

Data Warehouses unterstützen häufig die Funktionalität externer Tabellen, um auf diese Daten zuzugreifen, haben jedoch erhebliche Funktions- und Leistungseinschränkungen. Eine Lakehouse-Architektur fügt stattdessen herkömmliche Data Warehousing-Funktionen zu bestehenden Data Lakes hinzu. Dazu gehören ACID-Transaktionen, feinkörnige Datensicherheit, kostengünstige Aktualisierungen und Löschungen. Sie bietet erstklassige SQL-Unterstützung, optimierte Leistung für SQL-Abfragen und BI-gestützte Berichte. Kurz gesagt: Ein Lakehouse bietet ein einziges System für die Verwaltung aller Daten eines Unternehmens und unterstützt gleichzeitig das Spektrum der Analysen von BI und KI.

Um die Betriebskosten zu minimieren und die Leistung zu maximieren, sind Data Lakehouses auf separaten, elastisch skalierbaren Rechen- und Speicherkapazitäten aufgebaut. Darüber hinaus nutzen sie oft kostensparende Funktionen von Cloud-Anbietern wie Spot-Instance-Preise und reduzierte Preise für selten genutzten Speicher. Dies ist etwas, wofür herkömmliche Data Warehouse-Engines nicht ausgelegt sind.

Schließlich hat Databricks vor kurzem einen Weltrekord für den offiziellen 100-Terabyte-TPC-DS-Benchmark aufgestellt, den Goldstandard zur Bewertung der Leistung von Data Warehouse-Systemen. Im Gegensatz zu den meisten anderen Benchmark-Ergebnissen wurden die Ergebnisse vom offiziellen Transaction Processing Performance Council (TPC), dass die TPC-DS organisiert, geprüft und veröffentlicht.

Nach Angaben des Councils übertraf Databricks den bisherigen Weltrekordhalter um das 2,2-fache. Damit hat Databricks zum ersten Mal gezeigt, dass die Lakehouse-Architektur tatsächlich eine bessere Data Warehousing-Leistung erbringen kann als herkömmliche Data Warehouses mit proprietären Datenformaten. Denn sie baut auf riesigen, in offenen Data Lakes gespeicherten Datenmengen auf. Dies ist eine wichtige Bestätigung für das Lakehouse-Paradigma und zeigt, warum das Data Warehouse, wie wir es heute kennen, im kommenden Jahrzehnt entweder nicht mehr existieren oder ganz anders aussehen wird.

Data Warehouses gibt es auch nach vierzig Jahren noch, aber es ist an der Zeit, sie in Rente zu schicken. Ein Lakehouse bietet eine einheitliche Methode zur Verwaltung von Zugriffskontrolle, Datenqualität und Compliance für alle Daten eines Unternehmens, indem es Standardschnittstellen wie in Data Warehouses verwendet.

Lakehouse-Systeme unterstützen eine fein abgestufte Zugriffskontrolle (auf Zeilen-, Spalten- und Ansichtsebene) über SQL, Abfrage-Auditing, attributbasierte Zugriffskontrolle, die Versionierung von Daten, sowie Überwachung der Datenqualität. Durch die Zentralisierung aller Daten mit einer einzigen Verwaltungsschnittstelle in einem Lakehouse-System werden der Verwaltungsaufwand und die Fehleranfälligkeit, die mit der Verwaltung mehrerer separater Systeme einhergehen, verringert.

Diese neuen Datenarchitekturen sind offen, kosteneffizient und erreichen eine höhere Leistung, weshalb immer mehr Unternehmen ihre Dateninfrastruktur von der alten auf die neue Architektur umstellen.

Roman Pritzkow ist Regional Vice President Sales Germany bei Databricks.

Databricks

Lesen Sie auch