So hilft Maschinelles Lernen in der modernen IT-SicherheitDie Macht der Algorithmen

29. Januar 2019

Quelle: © Sikov - Fotolia.com

Maschinelles Lernen findet heute in sehr vielen Bereichen Anwendung, insbesondere dort, wo große Datenmengen analysiert werden müssen – zum Beispiel in der IT-Security. Dort hat sie die Wirksamkeit verschiedener Sicherheitsmechanismen wie Anti-Malware, Anti-Spam, Anti-Fraud und Anti-Phishing enorm erhöht.

In der öffentlichen Wahrnehmung hat die Künstliche Intelligenz (KI) die Rolle der Antriebsfeder im Bereich der digitalen Transformation eingenommen. Doch bei genauer Betrachtung zeigt sich, dass diese Technologie in den meisten Anwendungsbereichen noch in den Kinderschuhen steckt. Im Prinzip geht es bei der KI darum, menschliche Entscheidungsstrukturen mit Hilfe eines Computers nachzubauen, ihn sozusagen „intelligent“ werden zu lassen.

Häufig wird diese Begrifflichkeit absichtlich als Synonym für das Maschinelle Lernen (ML) verwendet. Doch beim ML handelt es sich eher um ein Teilgebiet der KI. Maschinelles Lernen ist im Prinzip auf Algorithmen basierende Software, die darauf spezialisiert ist, sehr große Datenmengen anhand vordefinierter Parameter zu bearbeiten.

Da moderne Computernetzwerke auch sehr komplexe Algorithmen in kurzer Zeit auf eine sehr hohe Menge an sowohl strukturierter, als auch unstrukturierter Daten anwenden können, übersteigen ihre Fähigkeiten Daten zu analysieren, die des Menschen um ein Vielfaches. Fortschrittliche Algorithmen können aus der Analyse großer Datenmengen in gewissem Maße Erkenntnisse ziehen und diese wiederum in den Algorithmus aufnehmen. Das macht sie noch nicht intelligent, aber dafür gewissermaßen lernend, was ihnen ihren Namen einbrachte.

Maschinelles Lernen in der IT-Security

Maschinelles Lernen findet heute in sehr vielen Bereichen Anwendung, insbesondere dort, wo große Datenmengen analysiert werden müssen – zum Beispiel in der IT-Security. Endpoint Security Hersteller haben schon vor rund zehn Jahren begonnen, ihre Lösungen mit Maschinellem Lernen zu verbessern. So aufgebohrt, wurde die Wirksamkeit verschiedener Sicherheitsmechanismen wie Anti-Malware, Anti-Spam, Anti-Fraud und Anti-Phishing enorm erhöht.

Maschinelles Lernen verarbeitet die Daten von Millionen von Endgeräten, findet hier Korrelationen und erkennt selbständig neue Angriffsmuster. So konnte die Erkennung von Malware in den letzten Jahren größtenteils automatisiert, beschleunigt und verbessert werden. Durch maschinelles Lernen erkennen einige Lösungen sogar komplett unbekannte Stämme von Malware und wehren sie ab.

Kleiner Platzbedarf, große Vorteile – Algorithmen sind praktische Helfer

Früher erkannten Sicherheitslösungen Malware anhand von Signaturen oder Hashes. Einer der großen Vorteile Algorithmen zu nutzen und nicht mehr die alten Signatur-Bibliotheken ist ihre geringe Größe. Ein Algorithmus beschreibt im Prinzip nur Merkmale, die häufig bei bösartigen Dateien festgestellt werden. Ein einziger Algorithmus kann eine sehr große Anzahl unbekannter Dateien bearbeiten und feststellen, welche davon bösartig oder sicher sind. Lange Listen von Hashes und Signaturen ständig zu aktualisieren ist somit unnötig geworden.

Algorithmen können sehr komplex sein. Ihre Entwickler verfeinern und ergänzen sie kontinuierlich über einen langen Zeitraum hinweg. Ein komplettes Modell besteht oft nicht nur aus einem Algorithmus, sondern kombiniert idealerweise verschiedene Arten von Algorithmen, da einige Algorithmen je nach Verwendungszweck bessere Ergebnisse liefern als andere.
Beispiele für verschiedene Algorithmen sind: Perzeptrons, binäre Entscheidungsbäume, eingeschränkte Boltzmann-Maschinen, genetische Algorithmen, Support-Vektor-Maschinen und künstliche neuronale Netze. Moderne Sicherheitslösungen in der IT setzen diese Algorithmen sowohl einzeln als auch kombiniert ein, um bestimmte Arten von Malware oder Malware-Familien schneller und genauer zu identifizieren.

Algorithmen für moderne Lösungen in der IT-Security

Um Algorithmen des ML so zu programmieren, dass sie beispielsweise Gut und Böse voneinander unterscheiden können, muss man zuerst einmal alles Mögliche über Gut und Böse lernen. Hierfür werden sehr große Datensätze benötigt, die idealerweise alle möglichen Attribute abdecken, an denen man gutartig von bösartig unterscheiden könnte. Aus den in beide Lager kategorisierten Dateien werden anschließend Schulungssets erstellt, auf deren Basis dann die Modelle entwickelt werden, die zukünftig neue, unbekannte Dateien auf ihre Gut- oder Bösartigkeit untersuchen können.

Das Ziel jedes Algorithmus ist es, eine Erkennungsgenauigkeit von 100 Prozent zu erreichen, um nicht korrekte Fehlerkennungen, sogenannte False Positives, zu vermeiden, die die Produktivität der IT beeinträchtigen. In der Praxis ist eine hundertprozentige Erkennung zwar unrealistisch, mittels der Kombination und ständiger Abstimmung verschiedener Algorithmen ist es je nach Aufgabe des Algorithmus jedoch möglich, sehr nah an 100 Prozent zu gelangen.

Um Malware zu entdecken, untersuchen Modelle Dateien anhand ausgefeilter Techniken und extrahieren bestimmte Merkmale. Dazu nutzen sie sorgsam definierte Entpackungs-Routinen oder Emulationen vor der Ausführung oder sie identifizieren den Packer einer Datei, um anhand dessen Reputation Rückschlüsse zu ziehen. Ausgereifte Lösungen können pro Datei auf diese Weise Tausende von Merkmalen untersuchen, um schließlich zu entscheiden, ob eine untersuchte Datei gut oder bösartig ist. Beim Aufspüren von Malware können beispielsweise für das Aufspüren von Phishing spezialisierte Algorithmen zur Identifizierung von betrügerischen Command and Control (C&C)-Domänen genutzt werden.

Einsatz im Unternehmensalltag

Gerade große Unternehmen sind einer sehr hohen Anzahl an Bedrohungen ausgesetzt und benötigen daher Lösungen, die idealerweise komplett automatisch arbeiten. Das heißt, dass die Sicherheitslösung alle Fälle untersucht, nach Gut und Böse unterscheidet und die gefährlichen Fälle direkt entschärft, ohne dass manuelles Eingreifen notwendig ist. Bei einem solchen Ansatz erhöht sich leider auch die Anzahl von False Positives, da die Modelle nicht nur bekannte, sondern auch neue Bedrohungen identifizieren wollen. Genau dies ist bei vielen Sicherheitslösungen, die auf Maschinelles Lernen setzen, eine Herausforderung für die IT-Verantwortlichen.

Eine Möglichkeit, die negativen Auswirkungen durch mögliche Fehlalarme zu minimieren, ist das Tuning der Schwellwerte: IT-Administratoren können einstellen, wie aggressiv oder permissiv die Erkennung des maschinellen Lernens sein soll. Aggressive Erkennung bedeutet, dass man im Zweifelsfall lieber eine Datei zu viel blockt, permissive, dass man mehr Wert auf einen effizienten IT-Betrieb legt. Ebenso lässt sich im Idealfall einstellen, was genau mit bestimmten Arten von Vorgängen passieren soll: Zulassen, weiter beobachten oder Alarm schlagen.

Maschinelles Lernen in allen Sicherheitsschichten

Neue, immer komplexere Bedrohungen, die auf Verschlüsselung, Verschleierung und Polymorphismus beruhen, haben dazu geführt, dass einfache, eindimensionale Erkennungsmethoden bei der Bewältigung der riesigen Anzahl von Bedrohungen wirkungslos geworden sind. Algorithmen und Maschinelles Lernen sind hier kein Allheilmittel, das alle herkömmlichen Sicherheitsschichten ersetzen kann.

Die neuen Technologien schaffen es jedoch die Effektivität jeder einzelnen bestehenden Schicht zu verbessern, insofern diese mit den Algorithmen ausgestattet ist. In der Realität kommt man heute im Bereich IT-Security um Lösungen, die Maschinelles Lernen nutzen nicht mehr herum, will man hohen Erkennungsleistung und starken Schutz vor Angriffen bei niedrigem Verwaltungsaufwand erzielen.

Liviu Arsene ist Leitender Bedrohungsanalyst bei Bitdefender.

Hier geht es zu Bitdefender