Was ist Machine Learning?

Maschinelles Lernen (ML) bezeichnet ein Anwendungs- und Forschungsgebiet der Informatik, welches sich mit Verfahren (Algorithmen) befasst, die Daten zur Vorhersage oder Entscheidungsfindung selbstständig auswerten können. Solche Algorithmen erstellen meist ein Modell auf der Grundlage von Beispieldaten (Trainingsdaten) um neue, unbekannte Daten bewerten zu können. Damit gehen sie implizit davon aus, dass Strategien, die in der Vergangenheit gut funktioniert haben, wahrscheinlich auch in Zukunft gut funktionieren werden. Üblicherweise ist es aufgrund der Datenmenge, der Datenkomplexität oder der Tatsache der kontinuierlichen Änderung der Bewertungskriterien zu aufwendig, explizierte Verfahrensanweisungen zur Erfüllung der erforderlichen Aufgaben zu programmieren. Verfahren dieser Art werden in einer Vielzahl von Anwendungen eingesetzt, z. B. beim Filtern von E-Mails (Spam-Filter), bei der Spracherkennung (digitale Assistenten) und in der Medizin (Bildauswertung).

Der Bereich maschinelles Lernen wird oft als Teil der künstlichen Intelligenz (KI) betrachtet, die in den 1950er Jahren ihren Siegeszug begann. In den 1990er Jahren entwickelte er sich eigenständig weiter mit dem Ziel lösbare Probleme praktischer Natur anzugehen, statt eine künstliche Intelligenz erschaffen zu wollen. Im Unterschied zur künstlichen Intelligenz basiert maschinelles Lernen auf passiven Beobachtungen. Eine künstliche Intelligenz hingegen kann durch Interaktion mit der Umwelt das Lernen selbstständig optimieren. Verfahren mit einer solchen aktiven komponente werden im maschinellen Lernen dem Reinforcement Learning zugeordnet.

Dies gilt ebenfalls für das Verhältnis von den Begriffen maschinelles Lernen und Data Mining. Beide Bereiche verwenden nahezu dieselben Methoden und überschneiden sich erheblich. Während sich das maschinelle Lernen jedoch auf Vorhersagen konzentriert, die auf bekannten, aus den Trainingsdaten erlernten Eigenschaften beruhen, liegt der Schwerpunkt beim Data Mining auf der Entdeckung von unbekannten Eigenschaften in den Daten. Häufig werden beide Begriffe jedoch synonym verwendet.

Geschichte der künstlichen Intelligenz, maschinellem Lernen und Deep Leaning

Was bedeutet strukturierte und unstrukturierte Daten?

Unstrukturierte Daten sind digitalisierte Informationen, die in einer nicht formalisierten Struktur vorliegen und daher durch maschinelle Lernverfahren oft nicht direkt ausgewertet werden können. Beispiele für unstrukturierte Daten sind Texte in natürlicher Sprache, Sprachaufnahmen, Bilder und Videos. Im Gegensatz zu unstrukturierten Daten haben strukturierten Daten ein definiertes Datenmodell, oft werden sie in einer Datenbank vorgehalten. Ob Daten in strukturierter Form oder unstrukturierter Form vorliegen, hängt auch vom Anwendungszweck ab. So stellen sich Bilder als strukturierte Informationen dar, wenn es um die Auswertung der Farbinformationen geht, jedoch als unstrukturierte Informationen, wenn es um die Bildinhalte geht. Da die Strukturierung von Informationen mit Aufwand verbunden ist, liegt der größte der Teil aller Daten in unstrukturierter Form vor. Techniken aus dem Natural Language Processsing (NLP) und Text Mining bieten Methoden an, um Muster in unstrukturierten Informationen zu finden und diese für eine Auswertung verfügbar zu machen.

Strukturierte Daten und unstrukturierte Daten im Kontext des maschinellen Lernens

Welche maschinellen Lernverfahren gibt es?

Ansätze des maschinellen Lernens werden traditionell in drei Kategorien unterteilt, je nach Art der zur Verfügung stehenden Informationen und des Analyseziels:

  • Supervised Learning (Überwachtes Lernen)
    Dem Verfahren werden Trainingsdaten zur Verfügung gestellt, welche spätere Eingabe und Ausgabe beinhalten, um eine allgemeine Regel zu lernen, die die Eingaben den Ausgaben zuordnet. So trainieren zum Beispiel Mobilfunkanbieter auf der Basis der Daten ehemalige Kunden ein Modell um vorherzusagen, wie wahrscheinlich eine Kündigung durch einen bestehenden Kunden ist (Churn Prediction).
  • Unsupervised Learning (Unüberwachtes Lernen)
    Im Gegensatz zum überwachten Lernen werden dem Verfahren keine Trainingsdaten mit Eingaben und Ausgaben vorgegeben, das Verfahren soll vielmehr ohne Vorgabe eine Struktur in den gegebenen Daten finden. Unüberwachtes Lernen wird zur Entdeckung verborgener Muster in Daten oder dem Identifizieren von bedeutsamen Merkmalen eingesetzt.
  • Reinforcement Learning (Verstärkendes Lernen)
    Lernverfahren, welches durch Interaktion mit einer dynamischen Umgebung unter kontinuierlichem Erhalt von Rückmeldung eine Zielfunktion maximiert. Beispiele hierfür sind die Steuerung eines Fahrzeugs oder das Spielen eines Spiels gegen ein oder mehrere Gegner. Das Verstärkungslernen unterscheidet sich vom überwachten Lernen dadurch, dass keine Trainingsdaten (Eingabe- und Ausgabedatenpaare) präsentiert werden müssen und dass suboptimale Aktionen nicht explizit korrigiert werden müssen. Stattdessen liegt der Schwerpunkt auf der Suche nach einem Gleichgewicht zwischen der Erkundung und der Ausnutzung des aktuellen Wissens. Üblicherweise werden diese Verfahen als Markov-Entscheidungsprozess modelliert, einem mathematischen Rahmen für die Modellierung der Entscheidungsfindung in Situationen, in denen die Ergebnisse teilweise kontrollierbar und teilweise zufällig sind.
Übersicht über maschinelle Lernverfahren: Supervised Learning, Unsupervised Learning und Reinforcement Learning