Fachartikel

Übersicht über maschinelle Lernverfahren

Eine Übersicht über die drei Hauptkategorien des maschinellen Lernens - überwachtes, unüberwachtes und verstärkendes Lernen.

Maschinelle Lernverfahren werden traditionell in drei Hauptkategorien unterteilt, je nach Art der verfügbaren Informationen und des Lernziels. Diese Klassifikation basiert auf dem Lernproblem und der Struktur der zum Lernen zur Verfügung stehenden Informationen (Trainingsdaten).

Um diese drei abstrakten Konzepte zu veranschaulichen: Unüberwachtes Lernen gleicht einem Detektiv, der Muster und Zusammenhänge ohne vorherige Hinweise aufdecken muss. Überwachtes Lernen funktioniert wie ein Schüler mit einem Lehrer, der Lösungen korrigiert und Feedback gibt. Verstärkendes Lernen ähnelt einem Kind, das durch Ausprobieren und die Reaktionen der Umgebung neue Fähigkeiten entwickelt.

Beim unüberwachten Lernen müssen Strukturen aus Daten ohne weitere Vorgaben entdeckt werden. Beim überwachten Lernen sind Eingabe-Ausgabe-Paare nötig, anhand derer das Verfahren lernen kann. Beim verstärkenden Lernen erfolgt das Lernen durch Interaktion mit einer dynamischen Umgebung. Entsprechend eignet sich unüberwachtes Lernen für die Strukturentdeckung in Daten, überwachtes Lernen eignet sich für Vorhersageaufgaben bei bekannten Eingabe-Ausgabe-Beziehungen, und verstärkendes Lernen für Entscheidungsprobleme in interaktiven Umgebungen.

alt Übersicht über maschinelle Lernverfahren: Supervised Learning, Unsupervised Learning und Reinforcement Learning

Unüberwachtes Lernen (Unsupervised Learning)

Unüberwachte Lernenverfahren sind dazu da, ohne weitere Vorgabe Strukturen in den gegebenen Daten zu finden. Unüberwachtes Lernen wird daher zur Entdeckung verborgener Muster in Daten oder dem Identifizieren von bedeutsamen Merkmalen eingesetzt. Dies Art von Lernverfahren stellt demzufolge auch die geringsten Anforderungen an Trainingsdaten. Im Folgenden werden einige wichtige Anwendungen aufgeführt.

Clustering

Clustering-Algorithmen gruppieren ähnliche Datenpunkte, ohne zu wissen, welche Gruppen existieren sollten. Verschiedene Verfahren eignen sich für unterschiedliche Datentypen: K-Means teilt Daten in eine vorgegebene Anzahl zentrumsbasierter Gruppen, während hierarchische Verfahren baumförmige Clusterstrukturen erstellen. Anwendungen umfassen Kundensegmentierung und die automatische Gruppierung von Dokumenten nach Themen.

Dimensionalitätsreduktion

Solche Verfahren reduzieren die Anzahl der Eigenschaften in Datensätzen, um Hauptmuster sichtbar zu machen. Die Hauptkomponentenanalyse (PCA) ermöglicht eine intelligente Datenkomprimierung unter Beibehaltung der wichtigsten Informationen. Andere Verfahren wie t-SNE dienen der Visualisierung hochdimensionaler Daten.

Anomalieerkennung

Anomalieerkennungssysteme lernen die statistische Normalverteilung von Daten kennen, d.h. was typische Wertebereiche, Muster und Korrelationen sind. Abweichungen von dieser gelernten Normalität werden dann als Anomalien markiert. Bei Kreditkartentransaktionen würde das System beispielsweise lernen, dass kleine Einkäufe im Heimatland normal sind, während plötzliche Großeinkäufe im Ausland als verdächtig eingestuft werden. Verfahren wie One-Class SVM oder Isolation Forest kommen hierbei zum Einsatz.

Assoziationsregeln

Mittels Algorithmen wie Apriori werden Gruppen von Objekten (Itemsets) identifiziert, die häufig gemeinsam auftreten. Das klassische Beispiel "Bier und Windeln" aus dem Einzelhandel zeigt, wie unerwartete Zusammenhänge entdeckt werden können - junge Väter kaufen beim Windeleinkauf oft auch Bier. Die Stärke solcher Regeln wird durch Metriken wie Support (Häufigkeit) und Confidence (Verlässlichkeit) quantifiziert.

Generative Modelle

Generative Modelle lernen die zugrundeliegende Struktur von Daten, dass sie neue, realistische Beispiele generieren können. Ein Variational Autoencoder könnte nach Training auf Gesichtsbildern neue, nie existierende aber realistische Gesichter erzeugen. In der Medizin generative Modelle genutzt, um synthetische Patientendaten zu generieren, die statistisch äquivalent zu echten Daten sind um so die Privatsphäre von Patienten schützen.

Überwachtes Lernen (Supervised Learning)

Überwachte Lernverfahren werden Trainingsdaten in Form von Paaren von Eingabe und Ausgabe bereitgestellt, um daraus ein Regeln zu lernen, die die Eingaben den Ausgaben zuordnet. Das Ziel ist es dann, diese erlernte Funktion auf neue, unbekannte Eingaben anzuwenden. Eine weitverbreitete Beispiel hierfür ist der Spam-Filter, der anhand von bekannten Beispielen lernt, auch zuvor unbekannte E-Mails in die Kategorien Spam und Nicht-Spam einzuteilen. Dies ist ein Beispiel für Klassifikation.

Klassifikation

Bei der Klassifikation wird ein Verfahren darauf trainiert, Eingaben in vordefinierte Kategorien einzuteilen. Typische Anwendungen umfassen die Erkennung von Objekten in Bildern oder eben der Spamfilter.

Verschiedene Algorithmen eignen sich für unterschiedliche Klassifikationsaufgaben. Entscheidungsbäume erstellen regelbasierte Entscheidungsstrukturen und sind gut interpretierbar. Support Vector Machines finden optimale Trennlinien zwischen verschiedenen Kategorien in einem hochdimensionalen Raum.

Regression

Bei der Regression werden kontinuierliche Zahlenwerte vorhergesagt. Beispiele umfassen die Schätzung von Immobilienpreisen basierend auf verschiedenen Eigenschaften oder die Prognose von Wetterdaten. Mobilfunkanbieter trainieren beispielsweise auf der Basis der Daten ehemaliger Kunden ein Modell, um vorherzusagen, wie wahrscheinlich eine Kündigung durch einen bestehenden Kunden ist (Churn Prediction).

Verstärkendes Lernen (Reinforcement Learning)

Verstärkende Lernverfahren, maximieren durch Interaktion mit einer dynamischen Umgebung unter kontinuierlichem Erhalt von Rückmeldung eine Zielfunktion. Beispiele hierfür sind die Steuerung eines Fahrzeugs oder das Spielen eines Computerspiels.

Das Verstärkungslernen unterscheidet sich vom überwachten Lernen dadurch, dass keine Trainingsdaten (Eingabe- und Ausgabedatenpaare) präsentiert werden müssen und dass suboptimale Aktionen nicht explizit korrigiert werden müssen. Stattdessen liegt der Schwerpunkt auf der Suche nach einem Gleichgewicht zwischen der Erkundung und der Ausnutzung des aktuellen Wissens. Üblicherweise werden diese Verfahren als Markov-Entscheidungsprozess modelliert, einem mathematischen Rahmen für die Modellierung der Entscheidungsfindung in Situationen, in denen die Ergebnisse teilweise kontrollierbar und teilweise zufällig sind.

Das "Ausprobieren" erfolgt durch einen balancierten Mix aus Exploration (zufälliges Erkunden neuer Aktionen) und Exploitation (Nutzen bekannter erfolgreicher Strategien). Typische Ansätze wie die Epsilon-Greedy-Strategie wählen mit einer kleinen Wahrscheinlichkeit ε eine zufällige Aktion und sonst die bisher beste bekannte Aktion. Zu Beginn des Lernprozesses ist der Zufallsanteil höher, um den Aktionsraum zu erkunden. Mit zunehmendem Wissen wird der Zufallsanteil reduziert und das System nutzt vermehrt die gelernten optimalen Strategien.

Innerhalb des Reinforcement Learning haben sich verschiedene Kategorisierungen etabliert, die jeweils unterschiedliche Aspekte des Lernprozesses beleuchten. Diese Unterscheidungen sind wichtig, da sie verschiedene Vor- und Nachteile in Bezug auf Effizienz, Flexibilität und Anwendbarkeit aufweisen. Die Wahl des geeigneten Ansatzes hängt stark von der verfügbaren Information über die Umgebung, den Rechenressourcen und der Komplexität des Problems ab.

Model-Based vs. Model-Free Lernen

Model-Based RL erstellt ein internes Modell der Umgebung und plant Aktionen basierend auf diesem Modell. Model-Free RL lernt direkt aus Interaktionen ohne explizites Umgebungsmodell. Model-Free-Verfahren sind robuster gegenüber Modellfehlern, während Model-Based-Ansätze bei korrekten Modellen effizienter lernen können.

Value-Based vs. Policy-Based Methoden

Value-Based Methoden lernen eine Bewertungsfunktion, die den Wert von Zuständen oder Aktionen schätzt, und leiten daraus eine optimale Handlungsstrategie ab. Policy-Based Methoden optimieren direkt die Handlungsstrategie (Policy) ohne explizite Wertfunktion. Kombinierte Ansätze (Actor-Critic) nutzen beide Prinzipien.

On-Policy vs. Off-Policy Lernen

On-Policy-Verfahren lernen ausschließlich aus Erfahrungen, die mit der aktuellen Handlungsstrategie gesammelt wurden. Off-Policy-Verfahren können aus beliebigen Erfahrungen lernen, unabhängig davon, welche Strategie sie generiert hat. Off-Policy-Methoden ermöglichen flexibleres Lernen aus gespeicherten Erfahrungen, wie sie beispielsweise in der Robotersteuerung oder bei Spielstrategien eingesetzt werden.

Fazit

Jedes der drei Lernverfahren hat seine spezifischen Stärken und eignet sich für unterschiedliche Problemstellungen.

Diese Dreiteilung mag auf den ersten Blick willkürlich erscheinen Tatsächlich spiegelt sie die fundamentalen Informationsquellen wider, aus denen ein System lernen kann: Erkennen von Mustern (unüberwacht), Lernen anhand von Beispielen (überwacht) oder Lernen durch Ausprobieren mit Feedback (verstärkend). Interessanterweise lässt sich fast jedes maschinelle Lernproblem eindeutig einer dieser Kategorien zuordnen, je nachdem welche Art von Information während des Trainings verfügbar ist.

Moderne Large Language Models nutzen eine Kombination dieser traditionellen Lernverfahren. Das initiale Training erfolgt „selbstüberwacht" auf großen Textkorpora, wobei das Modell lernt, das nächste Wort vorherzusagen. Selbstüberwachtes Lernen bezeichnet eine Form des überwachten Lernens, bei welchem sich die Trainingsbeispiele direkt aus den Daten ergeben. In der Feinabstimmung wird häufig Reinforcement Learning verwendet, bei dem menschliche Bewertungen als Belohnungssignal dienen.

Das am weitesten verbreitete maschinelle Lernverfahren ist das überwachte Lernen, weswegen der Begriff Machine Learning oft damit gleichgesetzt wird. Daher wird in den folgenden beiden Artikeln auch auf ML im engeren Sinne eingegangen: Klassifikation und Regression.

Maschinelles Lernen - Begriff und Abgrenzung Klassifizierung im maschinellen Lernen