Einführung von Databricks Machine LearningData- und Machine Learning-Teams vereint

28. Mai 2021

Bei Databricks Machine Learning handelt es sich um eine kollaborative Plattform, die Unternehmen die Möglichkeit eröffnet, den gesamten Lebenszyklus von Daten und maschinellem Lernen in jeder Größenordnung zu standardisieren. Dazu gehören AutoML-Funktionen und der ML Feature Store.

Anlässlich des Data & AI Summits 2021 hat Databricks die Erweiterung seines Angebots für maschinelles Lernen (ML) mit der Einführung von Databricks Machine Learning angekündigt. Diese Data Native-Plattform basiert auf einer offenen Lakehouse-Architektur.

Anzeige
banner digitaler arbeitplatz jetzt v

Dabei werden neue und bestehende ML-Funktionen auf der Databricks Lakehouse-Plattform in eine kollaborative, zweckoptimierte Benutzer-Experience integriert. Sie bietet ML-Engineers alles, was sie zum Erstellen, Trainieren, Bereitstellen und Verwalten von ML-Modellen vom Experimentieren bis zur Produktion benötigen, wobei Daten und der gesamte ML-Lebenszyklus auf einzigartige Weise kombiniert werden. Databricks Machine Learning umfasst zwei neue Funktionen:

  • Zum einen Databricks AutoML, um den Prozess des maschinellen Lernens zu erweitern, indem alle mühsamen Schritte automatisiert werden, die Data Scientists heute manuell durchführen müssen, wobei dennoch genügend Kontrolle und Transparenz gegeben ist.
  • Zum anderen den Databricks Feature Store, um die Auffindbarkeit, Wiederverwendung und Verwaltung von Modellfeatures für Training und Entwicklung zu verbessern.

Viele heutige ML-Plattformen greifen zu kurz, weil sie eine zentrale Herausforderung des maschinellen Lernens ignorieren: Sie gehen davon aus, dass Daten in hoher Qualität vorhanden und für das Training aufbereitet sind. Das erfordert, dass Data Teams-Lösungen, die gut mit Daten, aber nicht mit KI sind, mit anderen zusammenfügen, die gut mit KI, aber nicht mit Daten sind.

Um die Dinge weiter zu verkomplizieren, unterscheiden sich die Verantwortlichen für Datenplattformen und -pipelines (Data Engineers) von denen, die ML-Modelle trainieren (Data Scientists), die sich wiederum von denen unterscheiden, die Produktanwendungen ausrollen (Application Owner). Infolgedessen müssen Lösungen für ML die Lücken zwischen Daten und KI, den erforderlichen Werkzeugen und den beteiligten Personen überbrücken.

Databricks Machine Learning gibt dagegen jedem Mitglied des Data Teams die richtigen Werkzeuge an die Hand. Benutzer können zwischen Data Science / Engineering, SQL Analytics und den neuen Machine Learning-Erfahrungen wechseln, um auf Tools und Funktionen zuzugreifen, die für ihren täglichen Arbeitsablauf relevant sind.

Die ML-Plattform bietet zudem eine ML-fokussierte Landing Page, die die weiteren ML-Funktionen und -Ressourcen mit schnellem Zugriff auf Experimente, den Feature Store und die Model Registry präsentiert. Databricks Machine Learning basiert auf einem offenen Lakehouse-Fundament und stellt sicher, dass Kunden einfach mit jeder Art von Daten arbeiten können. Sie können diese in jedem Maßstab nutzen, egal ob für maschinelles Lernen mit traditionellen strukturierten Tabellen, über unstrukturierte Daten wie Videos und Bilder, bis hin zu Streaming-Daten von Echtzeit-Anwendungen und IoT-Sensoren. Damit können sie sich schnell durch den ML-Workflow bewegen, um mehr Modelle in kürzester Zeit in Produktion zu bringen.

Schnellstart für neue Projekte und Automatisierung lästiger ML-Aufgaben

AutoML hat das Potenzial, Data Teams eine schnellere Erstellung von ML-Modellen zu ermöglichen, indem ein Großteil der Schwerstarbeit in der Experimentier- und Trainingsphase automatisiert wird. Kunden, die bestehende AutoML-Tools heute nutzen, haben jedoch oft Probleme damit, Machine Learning-Modelle in Produktion zu bringen.

Dies liegt daran, dass die Tools keinen Einblick in die Entstehung des endgültigen Modells bieten, was es unmöglich macht, die Leistungsfähigkeit zu verbessern oder Fehler zu beheben, wenn Randfälle in den Daten zu Vorhersagen mit geringer Zuverlässigkeit führen. Darüber hinaus kann es für Anwender schwierig sein, Compliance-Anforderungen zu erfüllen, die von ihnen verlangen, die Funktionsweise eines Modells zu erklären, da sie keinen Einblick in den Code des Modells haben.

Die Einführung der AutoML-Funktionen innerhalb von Databricks ML verfolgt stattdessen einen ‚Glaskasten‘-Ansatz. Er ermöglicht es Data Teams nicht nur, trainierte Modelle entweder über ein UI oder eine API schnell zu erzeugen, sondern generiert auch automatisch zugrundeliegende Experimente und Notebooks mit Code, so dass Data Scientists leicht einen unbekannten Datensatz validieren oder ein generiertes ML-Projekt anpassen können. Data Scientists haben volle Transparenz darüber, wie ein Modell arbeitet und können jederzeit die Kontrolle übernehmen. Diese Transparenz ist in stark regulierten Umgebungen und für die Zusammenarbeit mit spezialisierten Data Scientists entscheidend.

Darüber hinaus sind alle AutoML-Experimente mit dem Rest der Databricks Lakehouse-Plattform, einschließlich MLflow, integriert, um alle zugehörigen Parameter, Metriken, Artefakte und Modelle zu verfolgen, die mit jedem Versuchslauf verbunden sind, um den Vergleich von Modellen zu erleichtern und sie einfach in der Produktion einzusetzen. (rhh)

Databricks

Lesen Sie auch