Maschinelles Lernen und Datenanalysen in einem Multi-Cloud-Unternehmen Richtiges Navigieren im Datalake

12. Oktober 2020

In den letzten Jahren hat sich der Ansatz zur Verwaltung von Daten in Richtung Cloud verlagert. Inmitten dieser Entwicklung standen die Data Teams einer Reihe von Herausforderungen gegenüber. Diese reichen von Data Governance und Sicherheit über das Ausbrechen aus einer Herstellerbindung bis hin zur schnellen Identifizierung von Best-of-Breed-Lösungen reichten.

Unternehmen sind ständig auf der Suche nach der besten Plattform für jeden Workload, um die Geschäftsergebnisse vollständig zu optimieren. Das bedeutet, dass die meisten Unternehmen derzeit nicht auf eine einzige Cloud festlegen. Jetzt stehen wir vor der nächsten Entwicklung: Multi-Cloud. In der derzeitigen Landschaft gibt es zwei Arten von Unternehmen, diejenigen, die bereits Multi-Cloud sind, und diejenigen, die es noch werden.

Es ist erwähnenswert, dass es bei Multi-Cloud nicht darum geht, Cloud-Anbieter zu abstrahieren, um eine nahtlose Workload-Erfahrung für Benutzer an jedem beliebigen Ort zu ermöglichen. Vielmehr geht es bei Multi-Cloud darum, je nach Anwendungsfall zwischen Cloud-Anbietern zu wählen und die Migration von Workloads von einer Cloud in eine andere zu ermöglichen.

Es hat eine zunehmende Verbreitung verschiedener Geschäftszweige gegeben, die unterschiedliche Clouds nutzen, um von Cloud-Anbietern Best-of-Breed-Services zu erhalten. Man könnte meinen, dies sei ein sich anbahnender Management-Alptraum. Das kann passieren, wenn Unternehmen nicht vorsichtig vorgehen. Aber es gibt auch Vorteile, die die Möglichkeiten für geschäftliche Agilität, Flexibilität und Skalierbarkeit erhöhen. Und all dies kann erreicht werden, während eine Anbieterbindung vermieden wird.

IT-Operationen über die Multi-Cloud-Landschaft laufen zu lassen, erweist sich in der Realität als äußerst komplex. Data Teams, die Daten zur Generierung von Geschäftswert nutzen möchten, benötigen eine konsistente und kollaborative Datenanalyse Plattform, die sich über Clouds hinweg erstreckt. Ein Muss ist auch die Entwicklung einer langfristigen Datenstrategie, die es Unternehmen ermöglicht, Qualitätsdaten über mehrere Clouds hinweg sicher zu nutzen, ohne sich über die Geschwindigkeit und die Kosten von Datenmigrationen Gedanken machen zu müssen.

Welche Rolle spielt die Sicherheit?

Wenn Unternehmen einige ihrer proprietärsten und wichtigsten Daten zur Erstellung von Anwendungen, die auf Maschinellem Lernen (ML) basieren, verwenden, wird Sicherheit noch wichtiger. Eine wirkungsvolle Sicherheit bedeutet jedoch viel Aufwand. Implementierung und Aufrechterhaltung von Sicherheitsrichtlinien in einer Cloud ist schwierig genug, und die Anwendung auf zwei oder mehr Clouds kann die Dinge erheblich komplizieren.

Vom technischen Standpunkt aus betrachtet, sollte eine gute Multi-Cloud-Strategie nicht versuchen, zentrale Sicherheitsfunktionen zu abstrahieren, um Cloud-unabhängig zu sein. Im Gegenteil, sie wird die Cloud-nativen Konstrukte und Vorteile der einzelnen Anbieter umfassen, die für ihre jeweilige Cloud entwickelt wurden. Der Schlüssel zum Erfolg bei der Multi-Cloud-Datensicherheit und -Governance liegt darin, herauszufinden, wie auf den Konstrukten des Cloud-Anbieters ein konsistenter Rahmen aufgebaut werden kann, der auf einfache Weise Richtlinien definiert und sie für ein breites Spektrum von Anwendern, die an Datenanalysen und ML arbeiten, implementiert.

Die Unternehmen haben sich mit der Bedeutung von Daten auseinandergesetzt. Sie nutzen sie, um mittels Analysen fundierte Entscheidungen zu treffen, und setzen maschinelles Lernen ein, um Herausforderungen zu lösen, neue Produkte und Einnahmequellen zu schaffen, die Betriebseffizienz zu verbessern und vieles mehr. Heute wird jede intelligente Organisation Daten als eines ihrer wertvollsten Güter behandeln.

Auf Datenqualität und -integrität kommt es an

Maschinelles Lernen ist eine der wichtigsten datengesteuerten Prioritäten für Cloud-basierte Organisationen. Die Aufrechterhaltung eines hohen Standards der Datenqualität und -integrität in einer Multi-Cloud-Umgebung ist äußerst wichtig, da ML-Modelle letztendlich nur so gut sind wie die Daten, von denen sie lernen.

Für jeden Data Scientist, der Qualitätsprobleme messen und Verantwortlichkeit in den Prozess einbauen möchte, ist es von entscheidender Bedeutung, die richtigen Data Governance-Richtlinien zu haben. Dadurch können Unternehmen verwalten, wer für die Sicherstellung der Qualität eines bestimmten Datensatzes verantwortlich ist, welche Teams darauf zugreifen dürfen und welche Anwendungen den Datensatz für Geschäftsentscheidungen verwenden.

Mit der zunehmenden Menge an Daten, die jeden Tag produziert werden, ist die Art und Weise, in der Organisationen Daten speichern und austauschen, der Rahmen dafür, was sie später damit machen können. Jedes Unternehmen hat einen gemischten Ansatz über Data Lakes und Data Warehouses hinweg, der für seinen Anwendungsfall am besten geeignet ist. Dies bringt jedoch Vorteile und Herausforderungen in Bezug auf Flexibilität und Benutzerfreundlichkeit sowie Datenmanagement mit sich. Wenn wir uns speziell auf Data Lakes konzentrieren, ist es entscheidend, eine Speicherschicht darüber zu haben, die Transaktionsgarantien und die Durchsetzung von Schemata bietet, die wiederum eine hohe Datenintegrität und -qualität gewährleisten.

Open-Source-Ansatz für Multi-Cloud

Für Unternehmen ist es wichtig, eine Open-Source-Technologie als Teil der Datenqualitäts- und -Integritätsstrategie zu erwägen, die mehrere Clouds erweitert. Letztendlich garantiert eine Open Source-Speicherschicht die konsistente Behandlung und Erfahrung für Daten und ermöglicht gleichzeitig eine effektive Multi-Cloud-Strategie.

Nur mit Open-Source-Technologien und -Datenformaten können Unternehmen wirklich in die Lage versetzt werden, die Vorteile einer Multi-Cloud-Strategie optimal zu nutzen. Durch die Möglichkeit, Konfigurationen zu automatisieren, Sicherheits- und Governance-Richtlinien durchzusetzen und Daten in offenen Formaten über Clouds hinweg zu replizieren, haben Unternehmen eine echte Wahl zwischen Cloud-Anbietern.

Branchenführende Unternehmen sind diejenigen, die Datenstrategien implementieren, die es ihnen ermöglichen, ihre Daten in großem Maßstab und an mehreren Standorten zu nutzen, was hohe Datenqualitätsstandards mit den richtigen Sicherheitsrichtlinien erfordert. Da wir uns auf eine immer größere Multi-Cloud-Infrastruktur zubewegen, müssen Unternehmen in der Lage sein, schnell sicherzustellen, dass die Datenqualität über Clouds hinweg erhalten bleibt, ohne dabei Data Governance und Sicherheit zu vernachlässigen.

Fehlen diese, sind Unternehmen nicht in der Lage, das Potenzial von Datenbeständen optimal zu nutzen. Die Schaffung privater digitaler Arbeitsbereiche für den Zugriff auf Daten ist die nächste Grenze. Genau hier werden die Compliance- und Governance-Teams am besten funktionieren, wenn sie mit dem Cloud-Anbieter und dem Unternehmensnetzwerk verbunden sind.

Das ultimative Ziel einer einheitlichen Datenanalyseplattform ist es, alle Benutzer und Daten zusammenzubringen. Um die nativen Fähigkeiten einer Multi-Cloud-Landschaft nutzen zu können, müssen die Daten in einem offenen, einfachen, skalierbaren und sicheren Service gespeichert werden, der den gesamten Datenlebenszyklus verlängert.

Vinay Wagh ist Director of Product bei Databricks.

Databricks

Lesen Sie auch