Eine schnelle KI-Implementation braucht einen WegbereiterData Intelligence ist gefragt
17. Juni 2024Für viele IT-Verantwortliche klingt Datenverwaltung wie ein alter Hut. Doch das Management von unstrukturierten Daten ist der Wegbereiter für Data Intelligence: die analytische Nutzung von Daten in allen Bereichen, von semantischen Suchfunktionen über die Prozessoptimierung bis zur KI-Implementation.
Durch das Datenwachstum müssen sich Unternehmen immer intensiver mit der Analyse von unstrukturierten Daten auseinandersetzen, um deren steigendes Wertschöpfungspotenzial zu nutzen, aber auch um Ineffizienzen und Risiken – etwa bei Datenschutzverstößen – zu begrenzen. Dieser Prozess der Datensystematisierung, -analyse und -interpretation wird als Data Intelligence bezeichnet.
In ihm werden zunächst alle Rohdaten und Informationen gesammelt, bereinigt und systematisiert. In der anschließenden Analyse kann der Status quo abgebildet und für die Prozessoptimierung verwendet werden. Ebenso lassen sich Teile der systematisierten Daten in Vektordatenbanken transformieren, die die technische Basis für semantische Suchfunktionen (Semantic Search) sind.
Dabei handelt es sich um Suchen, die den Kontext und die Intention der Suchanfrage bei der Analyse berücksichtigen und damit genauere und zielführendere Antworten ausgeben. Data Intelligence bietet Verantwortlichen so einen Blick aus der Metaebene, der früher nur mühsam und in Einzelbereichen erreicht werden konnte.
Unstrukturierte Daten – der Elefant im Raum
Die Realität in vielen Unternehmen ist von diesem Ziel einer umfassenden Data Intelligence jedoch weit entfernt. Vielen IT-Verantwortlichen ist bewusst, dass mit nicht-systematisierten und unstrukturierten Datenbeständen ein Elefant im Raum steht, den sie aus Mangel an Ressourcen oder vielleicht aus Bequemlichkeit oft ignorieren. Als unstrukturierte Daten werden alle Informationen bezeichnet, die nicht in einer definierten Datenbankstruktur gespeichert worden sind – beispielsweise Passwortlisten, Bewerbungsdateien, Chatverläufe, Bilder, PPTs oder Videos. Sie werden von Einzelnutzern erstellt oder fallen im Rahmen von Arbeitsprozessen an.
In Zahlen gesprochen machen unstrukturierte Daten bis zu 80 Prozent des Bestandes in Unternehmen aus und füllen damit viele Terabyte an Speicherkapazität. Neben kritischen Daten wie etwa ROT-Daten (redundant, obsolet und trivial) finden sich darunter auch unbekannte Schätze wie beispielsweise Dark Data, das heißt Dateien, die zwar gesammelt, jedoch nicht verwendet werden.
Sie enthalten viele wertvolle Informationen, die nicht zielführend im Unternehmen zum Einsatz kommen – etwa Arbeitsabläufe in der Projektarbeit, ungenutzte Ideen in der Produktentwicklung oder Fehlerprotokolle von IT-Systemen. Dieses Potenzial können Unter-nehmen durch Data Intelligence für sich erschließen. Voraussetzung ist allerdings, dass die unstrukturierten Daten im ersten Schritt nutzbar gemacht werden.
Implementation von Data-Intelligence-Lösungen
Für diese Aufgabe ist der Einsatz von Data-Management-Lösungen alternativlos. Im Vergleich zur händischen Bearbeitung sind sie technisch und betriebswirtschaftlich um ein Vielfaches effizienter. Die Lösungen scannen zunächst den vorhandenen Datenbestand, um alle Formen von unstrukturierten Daten zu erkennen und zu klassifizieren. Durch regelbasierte Prozesse können sie diese Daten anschließend automatisiert verarbeiten – beispielsweise indem sie obsolete Dateien löschen oder geschäftskritische Informationen besonders schützen. IT-Verantwortliche können die zugrundeliegenden Verarbeitungsregeln jederzeit im Software-Cockpit einsehen und anpassen.
Dieser Strukturierungsprozess ist die Basis für Data Intelligence, das heißt die intelligente Analyse und Interpretation der Datenbestände. Und hier gilt die einfache Regel: Je „strukturierter“ die Daten aufbereitet worden sind, umso besser lassen sie sich anschließend für eine Prozessanalyse und -optimierung einsetzen.
Voraussetzung ist dabei eine umfassende Vernetzung der im Unternehmen zirkulierenden Daten durch Schnittstellen zwischen den einzelnen Systemen. Deren Kopplung trägt dazu bei, dass Verantwortliche die Daten übergreifend verknüpfen können, um Mehrwerte zu erkennen – beispielsweise durch den Einsatz von E-Discovery für die Datenidentifikation und -übermittlung an behördliche Ermittler. Oder durch die Verknüpfung von Maschinendaten am Edge mit Produktivitätskennziffern aus dem Qualitätsmanagement zur Optimierung des Mitarbeitereinsatzes. Oder durch den Einsatz von semantischen Suchen, die allen Anwendern eine effektivere Suche nach Informationen und Dateien in den unternehmensinternen Daten ermöglichen.
Data Intelligence steigert den Effekt von KI-Tools
Auch beim Einsatz von KI-Tools ist Data Intelligence ein echter Gamechanger. Damit KI-gestützte Lösungen passgenau in die Unternehmensprozesse eingebettet werden können, sind Entwickler auf qualitativ hochwertige und anwendungsbezogene Daten angewiesen. Für das Training der KI können sie entweder auf synthetisch erzeugte Daten oder auf echte Unternehmensdaten zurückgreifen.
Letztere sind klar im Vorteil, wenn es um eine schnelle und effektive Adaption der Anwendung geht. Entwickler können viele zielführende Metadaten, kontextbezogene Informationen und so-genannte Sprachdomänen in die Anwendung integrieren – letzteres ist die Bezeichnung für die unternehmens- und branchenspezifischen Begriffe und Ausdrücke.
KI-Modelle, die auf echten Unternehmensdaten basieren, sind in der Praxis jedoch auch mit vielen Herausforderungen verbunden. Die Daten sind oft weit in den Unternehmenssystemen verstreut. Und es gibt ein weiteres Aber, denn unsaubere Unternehmensdaten führen auch zu unsauberen oder halluzinierenden KI-Anwendungen, die fehlerhafte Ergebnisse produzieren und damit nicht den gewünschten Effekt erzielen.
Auch auf diese Herausforderung hat Data Intelligence eine passende Antwort parat. Im Rahmen der Aufbereitung können Daten nämlich kommentiert, zusammengefasst, bearbeitet oder mit Metadaten verknüpft werden. So lassen sich spezifische Datensätze generieren, die den Anforderungen der Entwickler entsprechen. Beispielsweise indem Kundendaten pseudonymisiert werden, um wichtige Informationen zu übermitteln, und dabei keine DSGVO- oder Compliance-Vorgaben zu verletzen.
Auf dieser Basis kann Data Intelligence die Risiken des Dateneinsatzes reduzieren und zugleich ein schnelles und effektives Training der KI ermöglichen. Das verkürzt die Adaptionsphase, spart Kosten und Ressourcen und führt dadurch zu einem schnellen Go-Live von KI-Anwendungen im Unternehmen. Ein weiteres wichtiges Argument für den zukunftsweisenden Einsatz von Data-Intelligence-Lösungen.
Ralph-Peter Rembor ist Vice President Sales und Marketing bei Aparavi.