KI-Herausforderungen in Sachen Daten, Speicher und ComputingNeue Erkenntnisse aus den bereits vorhandenen Daten gewinnen
14. Mai 2025
Ein Generationswechsel erfasst derzeit die globale Enterprise-Computing-Branche, die einen Umsatz von mehreren Billionen Dollar erzielt. Künstliche Intelligenz hat die Natur und architektonische Bedeutung von Daten grundlegend verändert. KI hat ebenso die Fantasie vieler Branchen beflügelt. Es gibt IDE-Extensions zum Schreiben von Code, Roboter, die Gedichte verfassen, ebenso wie KI-generierte Bilder, Videos und Musik. Mathematische Lösungs-Tools, sind vielversprechend, um Beweise für Probleme zu finden, die selbst die größten Köpfe seit langem beschäftigen, und Sprachmodelle, die die tiefen Strukturen der Sprache der Biologie entschlüsseln könnten.
Mi dem Einsatz von KI-basierter Technologie geht eine Veränderung der wissenschaftlichen Herangehensweise einher: Früher haben Forscher bei einem fehlerhaften Ergebnis in der Datenverarbeitung den Code auf Fehler überprüft. Heute, mit KI, überprüfen sie bei einem fehlerhaften Ergebnis nicht den Code, sondern die Daten.
Daten sind sowohl Quelle, als auch Problem. Die Abhängigkeit von ihnen wird die Sichtweise auf Computer, Programme, Tests und zuverlässige Ausführung verändern.
„Quelle der Wahrheit“ steht im Mittelpunkt
Diese Verlagerung der Datenabhängigkeit bedeutet einen technologischen und rechtlichen Umbruch, der in der Geschichte der Computertechnik kaum Parallelen hat. Früher waren Daten einfach etwas, das vom Code verwendet wurde. Heute sind Trainingsdaten eine grundlegende Quelle der Wahrheit für das, was der Code tun wird.
In aktuellen Modellen zum Aufbau von KI-Systemen müssen viele verschiedene Arten von Daten eindeutig identifiziert und verfolgt, überprüfbar gemacht und in ein wiederholbares Format gebracht werden, das schnell und regelmäßig analysiert werden kann. Nach dem Training mit neuen Daten haben neue Erkenntnisse aus den neuen Daten einen direkten Einfluss auf den Erfolg jedes KI-Trainings. Auch die Metadaten zu diesen Daten werden unverhältnismäßig wertvoller.
Herausforderung für eine ganze Generation
Da sich die Identität eines einzelnen Datensatzes je nach Kontext, in dem er verwendet wird, ständig ändert, ist es unerlässlich, dass seine Identität trotz wechselnder Kontexte eindeutig ist. Hervorragende KI-Ergebnisse werden erzielt, wenn die Daten klar und präzise aufeinander abgestimmt sind.
Die Workflows im Umgang mit Daten normalisieren sich und ähneln zunehmend denen in regulierten Branchen, beispielsweise bei geprüften Finanzdaten, die zu einem festgelegten Zeitpunkt, beispielsweise zum Ende eines Geschäftsquartals, festgelegt werden und unveränderlich sind. Ein weiteres Beispiel sind Workflows für die Prüfung neuer Medikamente oder die Lebensmittelqualität. Diese Daten werden nach allgemein anerkannten Standards eindeutig abgeleitet und gekennzeichnet und anhand von Artefakten und Nachweisen geprüft, damit sie zuverlässig verwendet werden können.
Zuverlässige und einheitliche Daten sind der Grund, warum AlphaFold, das Tool von Google DeepMind zur Bestimmung von Proteinstrukturen, eines der erfolgreichsten KI-Projekte überhaupt ist. Die Labordaten aus aller Welt sind einheitlich, da sich alle Beteiligten über die Bedeutung der Definitionen einig sind, sodass die Beschreibungen – manchmal auch als Labels bezeichnet – ebenfalls einheitlich sind. Das Ziel ist ehrgeizig, aber auch relativ eng gefasst, sodass die Daten nicht aus anderen Quellen für andere Zwecke wiederverwendet werden müssen.
Diese Beispiele sind jedoch Einzelfälle. Daten müssen in allen anderen Trainings- und Anwendungskontexten dieselbe Identität und Herkunft aufweisen. Während regulatorische und finanzielle Daten in einem monatelangen Prozess erfasst werden, geht es in der heutigen Zeit darum, diese Art von Daten und ihre Interaktionen nahezu in Echtzeit zu überprüfen.
Regulierungsbehörden, Finanzabteilungen und spezialisierte Labore sind nicht die Norm. Der Großteil der digitalen Informationen weltweit wird nach einer Vielzahl von Standards erstellt, auf unterschiedliche Weise indexiert und in einer Vielzahl von Formaten gespeichert. Die meisten älteren Daten wurden erstellt, bevor überprüfbare Kennzeichnungen eine Rolle spielten.
Einige Anbieter glauben, dass die Lösung lediglich in der Speicherung von Daten und einem Index besteht. Das ist ein Trugschluss. Eine strukturierte Methode zur Beschreibung der Daten und zur Verfolgung von Änderungen an den Daten und dem Index ist sowohl das Problem als auch der Mehrwert. Deshalb ist dies eine neue, generationsübergreifende Herausforderung für die bisherige Sichtweise auf Daten.
Mit Metadaten die Zukunft gestalten
Das wahre Versprechen des KI-Zeitalters, über die Automatisierung hinaus, sind die neuen Entdeckungen, die in den bereits vorhandenen Daten zu erwarten sind. Praktiker werden erkennen, dass es von grundlegender Bedeutung ist, mehr Metadaten für vorhandene Daten zu erstellen und zuzuordnen, darunter auch solche, die noch nicht bekannt sind, für eine unendliche Anzahl von Datenpunkten.
So etwas gab es in den bisherigen Generationen von Unternehmenstechnologien noch nie. Die Notwendigkeit, Daten erneut zu überprüfen und kontinuierlich mehr Wissen und Erkenntnisse zu gewinnen, um die KI zu verbessern, ist historisch einzigartig. Dadurch gewinnen die Herkunft, Verfolgung und Indizierung von Daten – bekannt unter dem Oberbegriff Metadaten – sowohl an Wert als auch an Umfang. Metadaten sind nicht mehr nur eine Methode zur Beschleunigung der Datensuche, sondern haben sich zu einem echten „Hauptkatalog“ für Daten entwickelt.
Manche mögen angesichts des schieren Ausmaßes des Problems die Hände über dem Kopf zusammenschlagen, aber die Tech-Branche ist voll von talentierten Menschen, die sich an schwierigen Problemen erfreuen. Disruptive Denker tauchen immer dann auf, wenn der Bedarf am größten ist.
Ebenso kam es zur Revolution der unstrukturierten Daten seit dem Aufkommen von Big Data vor 20 Jahren. Heute durchläuft sie eine dramatische Entwicklung. Anstatt Daten wie amorphe Klumpen zu behandeln, sind selbst stark unstrukturierte Speichersysteme in der Lage, unstrukturierte Daten in strukturierte Formen zu organisieren.
Der Mehrwert sieht ähnlich aus wie bei tabellarischen Formaten mit hochflexiblen Transformationen der Datenentwicklung und -verknüpfung. Die „Lazy Evaluation“-Strategie der Programmierung, bei der Primitive als Abstraktionen behandelt werden, wird aufgrund ihrer Eignung für die Pflege zuverlässiger und standardisierter Daten je nach Bedarf genutzt.
Es ist bekannt, dass Python die universelle Sprache der KI ist, und eine der am häufigsten verwendeten Datenstrukturen in der Datenwissenschaft und KI ist Pandas DataFrame. Das Team von Pixeltable (bekannt für das Parquet-Dateiformat) hat sich mit dem Datenproblem befasst und DataFrame zu einer äußerst flexiblen Datenstruktur gemacht.
Die Möglichkeit, die sich dadurch eröffnet, multimodale Datensätze flexibel und zuverlässig zu speichern, zu transformieren und zu iterieren, ist bemerkenswert. Die Welt braucht flexiblere Methoden zur Organisation und Abfrage von Daten in großem Umfang, und eine schnelle Suche in Spalten reicht einfach nicht aus.
Nun gilt es, diese Konzepte um noch mehr Transformationen, Herkunftsangaben und Skalierbarkeit zu erweitern, als bisher für möglich gehalten wurde. Erfolgsversprechend ist hierbei, dass sich die Daten je nach den Anforderungen des Aufrufers verändern und ihre Erstellung und Verwaltung von ihrer Verwendung entkoppelt wird.
Die Umwandlung von Daten in neue Formen zum Zeitpunkt des Zugriffs steigert die Produktivität der Entwickler, da beispielsweise ein MPEG-Bild beim Zugriff in ein JPEG-Bild umgewandelt wird, wenn dies den Anforderungen des Codes entspricht. Lösungen aus dem Big-Data-Zeitalter bieten zwar Skalierbarkeit, aber sie müssen noch erheblich weiterentwickelt werden, um als Modell für die Datenorganisation und -speicherung künftiger Generationen dienen zu können.
Daten im Auge behalten
Der Bedarf an mehr Rechenleistung dürfte in Zukunft ebenso groß sein wie der Bedarf an neuen Speicherfunktionen wie flexiblen Datentransformationen, Tracking und Indizierung. Unternehmen dürfen den Fokus auf Datenverfügbarkeit und -leistung nicht verlieren. Das sind die Grundvoraussetzungen für heute und für die Zukunft. KI stellt neue Anforderungen an die Aktualität und Qualität von Daten, was mit zunehmender Reife dieser Bereiche neue Anforderungen an die Datenrepräsentation, -verfolgung und -indizierung mit sich bringt. (rhh)
Pure Storage