Natural Language Processing Natural Language Processing Grundlagen

Fachartikel

Anwendungsgebiete des Natural Language Processing

Spam-Filterung, Sentiment-Analyse, maschinelle Übersetzung und Informationsextraktion demonstrieren, wie klassische NLP-Techniken in praktischen Systemen kombiniert werden. Dieser Artikel beschreibt konkrete Anwendungsfälle und diskutiert ihre Herausforderungen.

Veröffentlicht am 01.02.2022. Zuletzt aktualisiert am 11.06.2024. 1990 Wörter. Lesezeit: 10 Minuten.

Die in den vorherigen Artikeln beschriebenen Techniken entfalten ihre Wirkung erst in der Kombination zu praktischen Systemen. Dieser Artikel zeigt, wie Tokenisierung, POS-Tagging, Named Entity Recognition, Parsing und Feature Engineering in realen Anwendungen zusammenwirken. Dabei werden nicht nur die Methoden beschrieben, sondern auch die praktischen Herausforderungen diskutiert, die bei der Entwicklung produktiver NLP-Systeme auftreten.

Textklassifikation

Textklassifikation ordnet Dokumente oder Textfragmente vordefinierten Kategorien zu. Diese scheinbar einfache Aufgabe umfasst vielfältige Anwendungen mit unterschiedlichen Anforderungen.

Spam-Filterung: Die klassische Anwendung

Spam-Filterung war eine der frühesten erfolgreichen NLP-Anwendungen und demonstriert die Effektivität statistischer Methoden. E-Mail-Spam-Filter klassifizieren eingehende Nachrichten als erwünscht oder unerwünscht basierend auf charakteristischen Sprachmustern.

Die typische Pipeline beginnt mit Tokenisierung und Stopword-Removal. Da Artikel und Konjunktionen wenig zur Unterscheidung zwischen Spam und Ham (legitime E-Mails) beitragen, können sie entfernt werden. Bag-of-Words oder TF-IDF transformiert den Text in numerische Vektoren. Spam-Mails enthalten typischerweise Wörter wie "winner", "prize", "click here", "guaranteed", "free money", während legitime Mails domänenspezifische Fachbegriffe und persönliche Namen aufweisen.

Naive Bayes Klassifikatoren waren lange der Standard für Spam-Filterung. Sie lernen, welche Wörter in Spam vs. Ham charakteristisch sind und berechnen für neue E-Mails die Wahrscheinlichkeit, Spam oder Ham zu sein. Trotz der "naiven" Unabhängigkeitsannahme erreichen sie Genauigkeiten über 95 Prozent. Support Vector Machines mit linearen Kernels liefern ähnliche oder bessere Ergebnisse und sind robust gegenüber hochdimensionalen, spärlichen Feature-Vektoren.

Moderne Spam-Filter kombinieren Textklassifikation mit Metadaten-Analyse. Absender-Reputation, Header-Informationen, Anhangseigenschaften und Netzwerk-Features ergänzen die textbasierten Signale. Spam-Erkennung ist ein kontinuierliches Wettrennen: Spammer passen ihre Strategien an (Ersetzung von Buchstaben durch Zahlen: "fr3e m0ney"), Filter müssen nachziehen. Moderne Systeme erreichen Genauigkeiten über 99 Prozent, aber False Positives (legitime Mails als Spam klassifiziert) bleiben problematisch.

Sentiment-Analyse: Meinungen und Emotionen erkennen

Sentiment-Analyse klassifiziert Texte nach ihrer emotionalen Polarität: positiv, negativ oder neutral. Anwendungen reichen von automatischer Auswertung von Produktbewertungen über Social-Media-Monitoring bis zur Analyse von Kundenumfragen.

Lexikonbasierte Ansätze verwenden Sentiment-Wörterbücher, die Wörtern Polaritätswerte zuweisen. Das SentiWordNet oder AFINN-Lexikon enthalten Tausende von Wörtern mit Bewertungen: "excellent" (+3), "good" (+1), "bad" (-1), "terrible" (-3). Der Sentiment-Score eines Dokuments ist die Summe oder der Durchschnitt der Einzelwerte. Negationen invertieren die Polarität: "not good" wird negativ, obwohl "good" positiv ist. Intensifizierer verstärken: "very good" erhält einen höheren Score als "good".

Diese regelbasierten Systeme sind interpretierbar, benötigen keine annotierten Trainingsdaten und funktionieren domänenübergreifend. Sie erfassen jedoch keine kontextabhängigen Bedeutungen. "Das Film war gut... für eine Komödie" ist eingeschränkt positiv, wird aber als vollständig positiv klassifiziert. Sarkasmus und Ironie bleiben unerkannt.

Machine-Learning-Ansätze lernen aus Beispielen, welche sprachlichen Muster für positive bzw. negative Texte charakteristisch sind. Features umfassen TF-IDF-Gewichte, N-Gramme (besonders Bigramme erfassen Negationen: "not good"), POS-Tag-Verteilungen und Emoticons. SVM, Naive Bayes oder Logistische Regression erreichen auf Produktbewertungen typischerweise Genauigkeiten von 80-85 Prozent. Die Performance hängt stark von der Domäne ab: Bewertungen mit klaren Polaritäten (5 Sterne vs. 1 Stern) sind einfacher als subtile politische Kommentare.

Themen-Klassifikation

Themen-Klassifikation ordnet Dokumente Kategorien wie Politik, Sport, Wirtschaft, Wissenschaft oder Unterhaltung zu. Nachrichtenportale nutzen dies für automatisches Tagging und Routing. E-Mail-Systeme kategorisieren eingehende Nachrichten für intelligente Postfächer.

Die Herausforderung liegt in der Mehrdeutigkeit: Ein Artikel über "Doping-Skandale im Radsport" gehört zu Sport, berührt aber auch Justiz und Gesundheit. Hierarchische Klassifikation ordnet Dokumente zunächst Hauptkategorien zu, dann Unterkategorien ("Sport" → "Radsport" → "Tour de France"). Multi-Label-Klassifikation erlaubt mehrere gleichzeitige Kategorien.

TF-IDF-Features funktionieren gut, da charakteristische Wörter Themen definieren: "Tor", "Spieler", "Trainer" deuten auf Sport, "Aktie", "Quartal", "Bilanz" auf Wirtschaft. N-Gramme erfassen themenspezifische Phrasen: "Europäische Zentralbank", "Künstliche Intelligenz". Bei großen Kategoriesystemen (Hunderte möglicher Kategorien) werden hierarchische Modelle oder Ensemble-Methoden eingesetzt.

Informationsextraktion

Informationsextraktion zielt darauf ab, strukturierte Daten aus unstrukturierten Texten zu gewinnen. Diese Systeme kombinieren mehrere NLP-Techniken in Pipeline-Architekturen.

Named Entity Recognition in der Praxis

NER-Systeme identifizieren und klassifizieren Eigennamen als Grundlage für strukturierte Datenextraktion. Die praktische Performance hängt stark von Domäne und Textqualität ab. Auf editierten Nachrichtentexten erreichen moderne Systeme F1-Scores von 90-95 Prozent. Auf Social-Media-Posts mit umgangssprachlicher Sprache, Tippfehlern und neuen Entitäten sinkt die Genauigkeit auf 70-80 Prozent.

Domänenanpassung ist entscheidend: Ein auf allgemeinen Nachrichtentexten trainiertes NER-System versagt in medizinischen Texten, wo Medikamentennamen, Krankheiten und anatomische Begriffe als Entitäten erkannt werden müssen. Finanzielle Dokumente erfordern Erkennung von Finanzinstrumenten, Währungen und Unternehmenskennzahlen. Diese domänenspezifischen NER-Systeme benötigen annotierte Trainingsdaten oder umfangreiche Gazetteers.

Relation Extraction: Beziehungen zwischen Entitäten

Relation Extraction identifiziert semantische Beziehungen zwischen erkannten Entitäten. Typische Relationen sind: "Person arbeitet für Organisation", "Person ist CEO von Organisation", "Produkt hergestellt von Firma", "Person geboren in Ort", "Person gestorben am Datum".

Pattern-basierte Ansätze definieren Muster, die charakteristische Kontexte beschreiben. Die Beziehung "X ist CEO von Y" wird durch Muster wie "X, CEO of Y" oder "Y announced that X will be CEO" erkannt. Diese Muster können manuell definiert oder automatisch aus annotierten Beispielen gelernt werden. Bootstrapping erweitert initiale Muster iterativ: Aus bekannten Relationinstanzen werden neue Muster extrahiert, diese Muster finden neue Instanzen.

Supervised Learning behandelt Relation Extraction als Klassifikation. Für jedes Entitätspaar wird entschieden, ob eine Relation vorliegt und welcher Typ. Features umfassen: Wörter zwischen den Entitäten, Dependency-Pfade, POS-Tags, Entitätstypen. Der Dependency-Pfad "Person ← nsubj ← geboren → in → Ort" ist ein starkes Signal für Geburtsort-Relationen.

Die Herausforderung liegt in der Datensparsamkeit: Während NER Tausende Beispiele pro Entitätstyp hat, existieren für spezifische Relationen oft nur Dutzende annotierte Instanzen. Distant Supervision nutzt Wissensdatenbanken (Wikipedia, Freebase): Wenn bekannt ist, dass "Barack Obama - Präsident - USA", werden alle Sätze, die Obama und USA erwähnen, als potenzielle Trainingsbeispiele verwendet, auch wenn die Relation dort nicht explizit ausgedrückt wird.

Event Extraction: Ereignisse und ihre Teilnehmer

Event Extraction identifiziert Ereignisse und ihre Teilnehmer. Im Satz "Apple acquired Beats for $3 billion on May 28, 2014" ist "acquired" das Ereignis mit Käufer "Apple", Ziel "Beats", Preis "$3 billion" und Datum "May 28, 2014". Weitere Event-Typen: Firmengründungen, Produktankündigungen, Personalwechsel, Fusionen, Gerichtsverfahren.

Die Pipeline kombiniert NER (Entitäten identifizieren), Trigger-Erkennung (welches Wort beschreibt das Ereignis?), Argument-Extraktion (welche Entitäten spielen welche Rolle?) und Temporal Expression Recognition (Zeitangaben normalisieren). Semantic Role Labeling auf Basis von Dependency Parsing hilft, die Rollen zu bestimmen: Wer ist Agens, Patiens, Instrument, Lokation, Zeitpunkt?

Event Extraction ist komplexer als Relation Extraction, da Ereignisse variabel viele Argumente haben und dieselbe Information durch verschiedene Formulierungen ausgedrückt werden kann. "Apple kaufte Beats", "Der Beats-Deal von Apple", "Apples Übernahme von Beats" beschreiben dasselbe Ereignis mit unterschiedlicher syntaktischer Struktur.

Knowledge Graphs: Strukturiertes Wissen aus Text

Knowledge Graphs aggregieren extrahierte Informationen in strukturierten Wissensdatenbanken. Entitäten werden als Knoten, Relationen als Kanten repräsentiert. Der Graph kann abgefragt werden: "Welche Personen sind CEO einer Organisation in New York?" oder "Zeige alle Übernahmen von Tech-Firmen in 2020."

Googles Knowledge Graph, powering die Info-Boxen in Suchergebnissen, wurde durch Informationsextraktion aus Wikipedia und anderen Quellen aufgebaut. Akademische Projekte wie YAGO oder DBpedia extrahieren strukturiertes Wissen aus semi-strukturierten Quellen. Die Herausforderung liegt in Entity Resolution: "Tim Cook", "Timothy Cook", "Apple's CEO" referenzieren dieselbe Person und müssen zusammengeführt werden. Fact Verification prüft, ob extrahierte Informationen widerspruchsfrei und durch multiple Quellen bestätigt sind.

Maschinelle Übersetzung

Maschinelle Übersetzung war eine der Motivationen für frühe NLP-Forschung und durchlief mehrere methodische Paradigmen. Während moderne neuronale Übersetzung (seit 2016) die Qualität erheblich verbessert hat, illustrieren statistische Ansätze grundlegende Prinzipien.

Statistische maschinelle Übersetzung

Phrase-basierte SMT-Systeme wie Moses dominierten von den 1990er Jahren bis 2016. Sie lernen Übersetzungen von Wortgruppen aus parallel vorhandenen Texten - Dokumenten, die in mehreren Sprachen verfügbar sind (EU-Parlamentsprotokolle, internationale Nachrichtenartikel, übersetzt Webseiten, Untertitel).

Alignment-Algorithmen identifizieren, welche Wörter und Phrasen in Quell- und Zielsprache einander entsprechen. Im Satz-Paar "Das Haus ist rot" - "The house is red" würde das System lernen: "Das" ↔ "The", "Haus" ↔ "house", "ist" ↔ "is", "rot" ↔ "red". Bei längeren Sätzen und idiomatischen Ausdrücken werden Phrasen-Alignments komplexer: "Es regnet Bindfäden" ↔ "It's raining cats and dogs" ist keine wörtliche Übersetzung.

Das Translation Model speichert gelernte Phrasenpaare mit ihren Übersetzungswahrscheinlichkeiten. Das Language Model (typisch N-Gramme) bewertet die Flüssigkeit der Zielsprache. Das Reordering Model behandelt unterschiedliche Wortstellungen: Deutsch "Ich habe das Buch gelesen" → Englisch "I have read the book" erfordert Umstellung des Partizips.

Decoder suchen durch Beam Search nach der wahrscheinlichsten Übersetzung unter Berücksichtigung aller drei Modelle. Der Such-Raum ist exponentiell: Bei 10 Wörtern im Quellsatz und 10 möglichen Übersetzungen pro Wort gibt es 10^10 Kombinationen. Beam Search hält nur die k besten Partial-Hypothesen (typisch k=10-100) und expandiert diese iterativ.

Herausforderungen und Qualität

SMT-Systeme erreichten für sprachnahe Paare wie Englisch-Französisch oder Spanisch-Deutsch angemessene Qualität (BLEU-Scores 25-35). Für strukturell verschiedene Sprachen (Englisch-Japanisch, Deutsch-Arabisch) blieben Probleme: Unterschiedliche Wortstellungen, fehlende morphologische Entsprechungen, kulturspezifische Konzepte ohne direktes Äquivalent.

Out-of-vocabulary-Wörter (Eigennamen, technische Begriffe, Neologismen) können nicht übersetzt werden, wenn sie nicht in Trainingsdaten vorkommen. Lange Sätze mit verschachtelten Strukturen führen zu inkorrekten Alignments. Kontextabhängige Bedeutungen werden nicht erfasst: "Bank" wird immer gleich übersetzt, unabhängig ob Finanzinstitut oder Sitzgelegenheit gemeint ist.

Neuronale maschinelle Übersetzung (NMT), basierend auf Sequence-to-Sequence-Modellen mit Attention, löste SMT ab 2016 ab. NMT-Systeme erreichen BLEU-Scores 35-45 und produzieren flüssigere Übersetzungen. Sie werden in separaten Artikeln zu neuronalen NLP-Ansätzen behandelt.

Weitere Anwendungsgebiete

Textzusammenfassung

Extraktive Zusammenfassung wählt die wichtigsten Sätze aus dem Originaltext aus. Scoring-Funktionen bewerten Sätze nach: Position (frühe Sätze oft wichtiger), Wortfrequenzen (Sätze mit häufigen Inhaltswörtern zentral), Cue-Phrases ("in conclusion", "importantly"), Kohäsion (Überlappung mit anderen Sätzen). Die k höchstbewerteten Sätze bilden die Zusammenfassung.

Abstraktive Zusammenfassung generiert neue Formulierungen und erfordert tieferes Sprachverständnis. Klassische Ansätze verwenden Templates und Informationsaggregation: Extrahiere zentrale Informationen, fülle Template-Strukturen. Moderne abstraktive Systeme nutzen neuronale Sequence-to-Sequence-Modelle.

Frage-Antwort-Systeme

Frage-Antwort-Systeme ermöglichen natürlichsprachliche Informationsabfragen. Die klassische Pipeline umfasst: Question Analysis (Fragetyp bestimmen: Wer? Wo? Wann? Wie viel?), Document Retrieval (relevante Dokumente finden), Passage Retrieval (relevante Textabschnitte identifizieren), Answer Extraction (spezifische Antwort extrahieren).

Bei "Wer ist der CEO von Apple?" wird erkannt, dass eine Person gesucht wird, die in der CEO-Rolle zur Organisation Apple steht. Dokumente über Apple werden abgerufen, Passagen mit "CEO" und Personennamen identifiziert, Named Entity Recognition extrahiert die Person.

Chatbots und Dialogsysteme

Regelbasierte Chatbots verwenden vordefinierte Muster und Antwort-Templates. AIML (Artificial Intelligence Markup Language) definiert Regeln: "Wenn Nutzer 'Wie ist das Wetter' sagt, antworte mit Wetterdaten-API-Call". Diese Systeme sind für begrenzte Domänen (Kundenservice, FAQ-Bots) praktikabel, aber nicht flexibel.

Retrieval-basierte Chatbots finden die passendste Antwort aus einer Datenbank vorhandener Antworten. TF-IDF-Ähnlichkeit zwischen Nutzerfrage und gespeicherten Fragen bestimmt die Antwort. Diese Ansätze garantieren grammatikalisch korrekte, domänengerechte Antworten, können aber nur auf Bekanntes reagieren.

Moderne generative Chatbots (basierend auf Large Language Models) gehen über klassisches NLP hinaus und werden in separaten Artikeln behandelt.

Herausforderungen klassischer Ansätze

Klassische NLP-Systeme standen vor systematischen Einschränkungen, die ihre Leistungsfähigkeit begrenzten und den Übergang zu neuronalen Ansätzen motivierten.

Mehrdeutigkeit bleibt ein fundamentales Problem. Lexikalische Ambiguität ("Bank" als Finanzinstitut oder Sitzmöbel), Part-of-Speech-Ambiguität ("running" als Verb oder Adjektiv), strukturelle Ambiguität ("I saw the man with the telescope" - wer hat das Teleskop?) erfordern Kontextverständnis. Klassische Systeme lösen dies durch statistische Präferenzen, erreichen aber nie perfekte Genauigkeit.

Data Sparsity limitiert statistische und ML-Ansätze. N-Gramm-Modelle höherer Ordnung, Features mit vielen Eigenschaften und spezifische Domänen führen zu kombinatorischer Explosion möglicher Fälle, die nicht in Trainingsdaten vorkommen. Smoothing lindert das Problem, aber Generalisierung bleibt begrenzt.

Langdistanz-Abhängigkeiten können lokale Modelle nicht erfassen. N-Gramme, HMMs und selbst CRFs berücksichtigen nur begrenzten Kontext. Im Satz "The keys to the cabinet that stands in the hallway are on the table" muss "are" mit "keys" kongruieren, nicht mit "cabinet" oder "hallway". Erst rekurrente neuronale Netze und Transformer können beliebig lange Abhängigkeiten effektiv modellieren.

Domänen-Adaptation ist aufwendig. Regelbasierte Systeme erforderten Neuentwicklung von Regeln und Lexika für jede Domäne. ML-Modelle, trainiert auf Nachrichtentexten, versagen auf Social Media oder Fachdomänen. Transfer Learning mit vortrainierten Embeddings verbesserte dies, aber erst große Sprachmodelle ermöglichten effiziente Anpassung mit wenig domänenspezifischen Daten.

Fazit und Ausblick

Die beschriebenen Anwendungen demonstrieren, wie klassische NLP-Techniken in praktischen Systemen kombiniert werden. Spam-Filterung, Sentiment-Analyse und Themen-Klassifikation zeigen erfolgreiche Textklassifikation. Informationsextraktion mit NER, Relation und Event Extraction baut strukturierte Wissensdatenbanken. Maschinelle Übersetzung illustriert die Komplexität der Übertragung zwischen Sprachen.

Klassische Methoden bleiben relevant: In ressourcenbeschränkten Umgebungen (mobile Geräte, Embedded Systems), für spezialisierte Domänen mit wenig Trainingsdaten, bei Anforderungen an Interpretierbarkeit (Warum hat das System diese Entscheidung getroffen?) oder wenn Garantien über Systemverhalten benötigt werden. Hybride Ansätze kombinieren neuronale Modelle mit linguistischen Regeln und erreichen oft die beste praktische Performance.

Die weiteren Artikel dieser Serie vertiefen spezifische Aufgaben wie Sentiment-Analyse und diskutieren moderne neuronale Ansätze, die viele der hier beschriebenen Einschränkungen adressieren.

Teil der Serie Natural Language Processing Grundlagen

Alle Artikel zum Thema Natural Language Processing