Natural Language Processing Natural Language Processing Grundlagen

Fachartikel

Klassische NLP-Techniken im Detail

Tokenisierung, POS-Tagging, Named Entity Recognition, Parsing, Sprachmodelle und Feature Engineering bilden das methodische Fundament der Sprachverarbeitung. Dieser Artikel erklärt detailliert, wie diese klassischen Techniken funktionieren.

Veröffentlicht am 01.02.2022. Zuletzt aktualisiert am 11.06.2024. 2725 Wörter. Lesezeit: 13 Minuten.

Klassische NLP-Techniken bilden das methodische Rückgrat der Sprachverarbeitung. Während moderne neuronale Ansätze viele Aufgaben Ende-zu-Ende lernen können, basieren sie konzeptionell auf den hier beschriebenen Verfahren. Zudem bleiben klassische Methoden in ressourcenbeschränkten Umgebungen, für spezialisierte Domänen oder in Anwendungen mit Anforderungen an Interpretierbarkeit nach wie vor relevant. Dieser Artikel erklärt die wichtigsten Techniken im Detail und zeigt, wie sie in praktischen Systemen eingesetzt werden.

Tokenisierung und Textvorverarbeitung

Die Zerlegung von Text in verarbeitbare Einheiten bildet den ersten Schritt praktisch jeder NLP-Pipeline. Diese scheinbar triviale Aufgabe ist in der Praxis komplex und beeinflusst alle nachfolgenden Verarbeitungsschritte.

Tokenisierung: Von Text zu Einheiten

Tokenisierung zerlegt kontinuierlichen Text in diskrete Einheiten - Tokens. Im Englischen scheinen Leerzeichen natürliche Trennzeichen zu sein, aber Sonderfälle komplizieren die Aufgabe erheblich. Kontraktionen wie "don't" oder "can't" könnten als ein Token oder als zwei behandelt werden ("do" + "n't"). Zusammengesetzte Ausdrücke wie "New York" oder "ice cream" funktionieren semantisch als Einheit, bestehen aber aus mehreren Wörtern. Abkürzungen wie "Dr.", "Inc." oder "e.g." enthalten Punkte, die nicht als Satzende interpretiert werden dürfen.

Regelbasierte Tokenisierer wie der Penn Treebank Tokenizer definieren umfangreiche Muster für verschiedene Sonderfälle. Sie berücksichtigen Interpunktion, Zahlen, Währungen und domänenspezifische Konventionen. Statistische Tokenisierer lernen optimale Segmentierungen aus annotierten Daten durch Training von Klassifikatoren, die für jede Position entscheiden, ob dort eine Token-Grenze liegt.

Sprachen wie Chinesisch oder Japanisch verwenden keine Leerzeichen zwischen Wörtern, was die Tokenisierung zu einem nichttrivialen Segmentierungsproblem macht. Hier müssen Systeme aus dem Kontext ableiten, wo Wortgrenzen liegen. Moderne Sub-Word-Tokenisierung wie Byte-Pair Encoding zerlegt Wörter zusätzlich in häufige Teilkomponenten, wodurch auch seltene oder neue Wörter aus bekannten Bausteinen zusammengesetzt werden können.

Satzgrenzen-Erkennung

Sentence Boundary Detection identifiziert, wo ein Satz endet und der nächste beginnt. Punkte sind nicht eindeutig: Sie markieren Satzenden, treten aber auch in Abkürzungen ("Dr. Müller arbeitet"), Dezimalzahlen ("3.14"), Aufzählungen ("1. Punkt") oder Ellipsen ("...") auf. Ausrufe- und Fragezeichen sind meist eindeutiger, können aber in Zitaten oder ironischen Kontexten vorkommen, ohne dass ein neuer Satz beginnt.

Systeme verwenden Heuristiken basierend auf Großschreibung nachfolgender Wörter, Listen bekannter Abkürzungen und syntaktischen Mustern. Ein Punkt gefolgt von einem klein geschriebenen Wort deutet selten auf ein Satzende hin. Machine-Learning-Ansätze trainieren Klassifikatoren auf Features wie Wortlänge vor und nach dem Punkt, Präsenz in Abkürzungslisten, Interpunktionsmuster und lexikalische Eigenschaften. Die Genauigkeit liegt typischerweise über 95 Prozent, aber Fehler in dieser frühen Verarbeitungsstufe pflanzen sich durch die gesamte Pipeline fort.

Stemming und Lemmatisierung

Stemming reduziert Wörter auf ihren Wortstamm durch regelbasiertes Entfernen von Affixen. Der Porter-Stemmer, einer der bekanntesten Algorithmen, wendet eine Sequenz von Suffix-Regeln an: "running" wird zu "run", "computers" zu "comput", "consolingly" zu "consol". Der Algorithmus ist schnell und sprachunabhängig implementierbar, produziert aber oft linguistisch inkorrekte Stämme. "consolingly" sollte zu "console" werden, nicht "consol".

Lemmatisierung ist der linguistisch motivierte Ansatz, der Wörter auf ihre Grundform (Lemma) zurückführt. "better" wird zu "good", "ran" zu "run", "mice" zu "mouse". Dies erfordert morphologische Analyse, Wörterbücher und Kenntnisse über unregelmäßige Formen. Lemmatisierung ist rechenaufwendiger als Stemming, liefert aber linguistisch korrekte und interpretierbare Ergebnisse.

Beide Techniken reduzieren die Vokabulargröße und helfen, verwandte Wortformen zu normalisieren. In Suchmaschinen ermöglichen sie, dass die Suche nach "Läufer" auch Dokumente mit "laufen", "gelaufen" oder "Lauf" findet. Für Sentiment-Analyse können "gut", "besser" und "beste" als Variationen derselben positiven Bewertung behandelt werden.

Stopword-Removal

Stopword-Removal entfernt häufige Funktionswörter wie "der", "die", "das", "ist", "und", "zu", die wenig semantischen Gehalt tragen. In traditionellen Bag-of-Words-Modellen reduzierten Stopword-Listen die Datenmenge und fokussierten auf inhaltstragende Wörter. Typische deutsche Stopword-Listen umfassen 200-600 Wörter, darunter Artikel, Konjunktionen, Präpositionen und häufige Verben wie "haben" oder "sein".

Die Entscheidung, Stopwords zu entfernen, hängt von der Aufgabe ab. Bei Dokumentenklassifikation nach Themen tragen Stopwords wenig zur Unterscheidung bei und können entfernt werden. Bei syntaktischer Analyse oder Sentiment-Analyse sind sie jedoch essentiell: Die Negation "nicht" ist ein Stopword, invertiert aber die Bedeutung komplett ("gut" vs. "nicht gut"). Moderne Embedding-basierte Ansätze verzichten oft auf Stopword-Removal, da auch Funktionswörter syntaktische und semantische Informationen tragen.

Part-of-Speech-Tagging

Part-of-Speech-Tagging (POS-Tagging) weist jedem Wort seine grammatikalische Kategorie zu und bildet die Grundlage für viele weiterführende Analysen. Die Aufgabe ist nicht trivial, da viele Wörter mehrere mögliche Tags haben können und nur der Kontext die korrekte Wahl bestimmt.

Die Herausforderung der Ambiguität

Im Satz "Die Fliegen fliegen" ist das erste "Fliegen" ein Nomen (Plural von "Fliege"), das zweite ein Verb. Das Wort "Bank" kann Nomen ("auf der Bank sitzen") oder Verb ("er bankt das Geld") sein. "Running" ist Verb ("he is running") oder Adjektiv ("running water"). Standard-Tagsets wie das Penn Treebank Tagset umfassen 36 verschiedene Tags für englische Texte, deutsche Tagsets oft 50-60 Tags. Die Herausforderung liegt darin, aus diesem Inventar für jedes Wort die kontextuell passende Kategorie zu bestimmen.

Regelbasierte Tagger

Der Brill-Tagger verwendet transformationsbasiertes Lernen. Er startet mit einer einfachen initialen Tag-Zuweisung (z.B. das häufigste Tag jedes Wortes) und wendet dann eine Sequenz von Kontextregeln an, die Tags korrigieren. Regeln haben die Form "Ändere Tag von X zu Y, wenn das vorherige Wort Tag Z hat" oder "Ändere Tag von A zu B, wenn das nächste Wort mit Großbuchstaben beginnt". Diese Regeln werden automatisch aus einem annotierten Korpus gelernt, indem Transformationen gesucht werden, die die Tagging-Genauigkeit maximieren.

Hidden Markov Models

Hidden Markov Models waren lange der Standard für POS-Tagging. Ein HMM modelliert die Sequenz von POS-Tags als versteckte Zustände und die beobachteten Wörter als Emissionen dieser Zustände. Das Modell lernt zwei Wahrscheinlichkeitsverteilungen: Übergangswahrscheinlichkeiten zwischen Tags (wie wahrscheinlich folgt ein Nomen auf einen Artikel?) und Emissionswahrscheinlichkeiten (wie wahrscheinlich generiert ein Nomen-Tag das Wort "Haus"?). Der Viterbi-Algorithmus findet dann effizient die wahrscheinlichste Tag-Sequenz für einen gegebenen Satz.

HMMs haben jedoch fundamentale Einschränkungen durch ihre Unabhängigkeitsannahmen. Sie berücksichtigen nur das unmittelbar vorhergehende Tag und können keine komplexeren Kontextinformationen einbeziehen. Features wie Wortpräfixe, Suffixe oder Groß-/Kleinschreibung können nicht direkt genutzt werden.

Conditional Random Fields

Conditional Random Fields überwanden diese Einschränkungen durch diskriminatives Training. CRFs modellieren die bedingte Wahrscheinlichkeit der Tag-Sequenz gegeben der Wortsequenz und können beliebige, auch überlappende Features einbeziehen: N-Gramme, Präfixe, Suffixe, Wortform, Großschreibung, vorherige und folgende Wörter. Im Gegensatz zu HMMs, die P(Wörter, Tags) modellieren, fokussieren sich CRFs auf P(Tags | Wörter), was für die Klassifikationsaufgabe direkt relevanter ist.

CRF-basierte Tagger erreichten Genauigkeiten von 96-97 Prozent auf Standard-Benchmarks und wurden zum neuen Standard. Moderne Systeme verwenden bidirektionale LSTMs mit CRF-Schicht, die kontextuelle Embeddings mit strukturiertem Lernen kombinieren und Genauigkeiten über 97 Prozent erzielen.

Named Entity Recognition

Named Entity Recognition (NER) identifiziert und klassifiziert Eigennamen in Texten. Die Aufgabe kombiniert Segmentierung (wo beginnt und endet eine Entität) und Klassifikation (welcher Typ ist die Entität) und ist eine Schlüsselkomponente für Informationsextraktion und Wissensextraktion aus Texten.

Entitätstypen und Herausforderungen

Standard-NER-Systeme identifizieren typischerweise: Personen (Angela Merkel, Barack Obama), Organisationen (Google, Vereinte Nationen), Orte (Berlin, Mount Everest), Zeitangaben (15. März, nächste Woche) und Geldbeträge (100 Euro, $5 Million). Domänenspezifische Systeme erkennen zusätzliche Typen wie Medikamente, Krankheiten, Chemikalien oder Produkte.

Die Herausforderungen sind vielfältig: Mehrdeutige Namen ("Washington" kann Person oder Ort sein), geschachtelte Entitäten ("Bank of America" enthält "America"), unbekannte Namen (neu gegründete Firmen, Personen ohne Wikipedia-Eintrag) und inkonsistente Schreibweisen ("M\u00fcller" vs. "Mueller", "NYC" vs. "New York City").

Regelbasierte Ansätze

Regelbasierte NER-Systeme verwenden Gazetteers (Listen bekannter Entitäten) und Musterregeln. Ein Gazetteer für Personennamen enthält häufige Vor- und Nachnamen, einer für Organisationen bekannte Firmennamen aus Unternehmensregistern. Regeln erkennen typische Kontexte: "Mr. [NAME]", "[ORG] Inc.", "[LOCATION], Germany", "[AMOUNT] Euro".

Diese Ansätze sind präzise für bekannte Entitäten und erfordern keine annotierten Trainingsdaten. Sie haben jedoch niedrigen Recall für unbekannte Namen und sind aufwendig zu pflegen. Bei jeder Aktualisierung (neue Firmen, Personen, Orte) müssen die Gazetteers manuell erweitert werden. Sie funktionieren besonders gut in eingeschränkten Domänen mit stabiler Terminologie wie medizinischen Texten oder Finanzberichten.

Machine-Learning-basierte NER

ML-basierte NER-Systeme behandeln die Aufgabe als Sequenzlabeling-Problem im BIO-Schema: B-PER (Begin Person), I-PER (Inside Person), B-ORG (Begin Organization), I-ORG (Inside Organization), O (Outside - keine Entität). Der Satz "Tim Cook arbeitet bei Apple Inc." wird getaggt als: "Tim/B-PER Cook/I-PER arbeitet/O bei/O Apple/B-ORG Inc./I-ORG".

Features umfassen: Wortform und Kontext, Groß-/Kleinschreibung, Präfixe und Suffixe (Personen enden oft auf "-son", Firmen auf "-corp"), POS-Tags, vorherige und folgende Wörter, Gazetteer-Matches als binäre Features. Conditional Random Fields waren lange der bevorzugte Algorithmus, da sie die Abhängigkeiten zwischen aufeinanderfolgenden Labels explizit modellieren. Ein Token kann nicht als I-PER getaggt werden, wenn das vorherige Token kein B-PER oder I-PER war.

Hybride Ansätze

Hybride Systeme kombinieren die Stärken regelbasierter und ML-Ansätze. Ein ML-Modell erkennt Entitäten, während Nachverarbeitungsregeln Inkonsistenzen korrigieren oder domänenspezifisches Wissen einbringen. Beispiel-Regeln: "Wenn aufeinanderfolgende Titel-Wörter 'Chief Executive Officer' detektiert werden, fasse sie als einzelne Entität zusammen", "Wenn eine Person-Entität auf 'Inc.' oder 'Corp.' endet, korrigiere zu Organisation".

Semi-Supervised Learning nutzt Gazetteers als zusätzliche Trainingssignale. Bootstrapping generiert automatisch annotierte Daten: Ein initiales Modell, trainiert auf wenigen Beispielen, taggt große Mengen unlabeled Text. Die konfidentesten Vorhersagen werden als neue Trainingsdaten verwendet, um das Modell iterativ zu verbessern.

Dependency Parsing und syntaktische Analyse

Dependency Parsing analysiert die grammatikalische Struktur von Sätzen, indem es Abhängigkeitsbeziehungen zwischen Wörtern identifiziert. Im Gegensatz zu Constituency Parsing, das Sätze in verschachtelte Phrasen zerlegt, stellt Dependency Parsing Wörter als Knoten in einem gerichteten Graphen dar, wobei Kanten die grammatikalischen Beziehungen repräsentieren.

Dependency-Repräsentation

Im Satz "Der große Hund jagt die Katze" ist "jagt" das Verb und die Wurzel des Dependency-Baums. "Hund" ist das Subjekt mit Relation nsubj (nominal subject), "Katze" das Objekt mit Relation obj (object). "Der" modifiziert "Hund" mit Relation det (determiner), "große" modifiziert "Hund" mit Relation amod (adjectival modifier), und "die" modifiziert "Katze" mit Relation det.

Diese Repräsentation erfasst, welche Wörter miteinander in Beziehung stehen, unabhängig von der linearen Wortstellung. Das ist besonders wichtig für Sprachen mit freier Wortstellung wie Deutsch oder Russisch, wo dieselbe semantische Bedeutung durch verschiedene Wortreihenfolgen ausgedrückt werden kann.

Transition-basierte Parser

Transition-basierte Parser wie MaltParser verwenden einen Shift-Reduce-Algorithmus mit einem Stack und einem Buffer. Sie verarbeiten Wörter von links nach rechts und wenden eine Sequenz von Aktionen an: Shift (nächstes Wort vom Buffer auf Stack), Left-Arc (erzeuge Kante vom aktuellen zum vorherigen Wort), Right-Arc (erzeuge Kante vom vorherigen zum aktuellen Wort).

Ein Klassifikator, trainiert auf annotierten Treebanks, entscheidet bei jedem Schritt, welche Aktion anzuwenden ist. Features umfassen die obersten Stack-Elemente, Wörter im Buffer, ihre POS-Tags, Wortformen und bereits erzeugte Kanten. Transition-basierte Parser sind effizient mit linearer Zeitkomplexität und gut für große Textmengen geeignet. Sie treffen jedoch lokale Entscheidungen, die nicht global optimal sein müssen.

Graph-basierte Parser

Graph-basierte Parser wie der MST (Maximum Spanning Tree) Parser betrachten alle möglichen Kanten im Satz und wählen den besten Dependency-Baum durch globale Optimierung. Sie berechnen Scores für alle möglichen Wort-zu-Wort-Abhängigkeiten mittels gelernter Gewichte und finden dann den höchstbewerteten Spannbaum mittels Chu-Liu-Edmonds-Algorithmus.

Graph-basierte Parser berücksichtigen globale Satzstrukturen und vermeiden lokale Fehler von transition-basierten Ansätzen. Sie haben jedoch höhere Zeitkomplexität (typisch O(n³) für n Wörter) und sind rechenaufwendiger. Beide Ansätze verwenden überwachtes Lernen auf annotierten Treebanks wie dem Universal Dependencies Corpus.

Anwendungen syntaktischer Analyse

Dependency-Strukturen dienen als Grundlage für zahlreiche weiterführende NLP-Aufgaben. Relation Extraction identifiziert semantische Beziehungen zwischen Entitäten durch Analyse der syntaktischen Pfade zwischen ihnen. Der Pfad "Person → nsubj → geboren → in → Ort" deutet auf eine Geburtsort-Relation hin.

Semantic Role Labeling bestimmt die semantischen Rollen von Satzteilen basierend auf Dependency-Strukturen: Wer macht was? Wem? Womit? Im Satz "Marie gibt Peter ein Buch" ist "Marie" der Agens (wer), "Peter" der Rezipient (wem) und "Buch" das Thema (was).

Question Answering nutzt syntaktische Analyse zur Identifikation relevanter Informationen. Bei der Frage "Wer wurde 2008 US-Präsident?" hilft Parsing zu erkennen, dass nach einer Person in der Rolle des Präsidenten gesucht wird, nicht nach dem Amt selbst.

Statistische Sprachmodelle und N-Gramme

N-Gramm-Sprachmodelle berechnen die Wahrscheinlichkeit von Wortsequenzen und ermöglichen die Vorhersage des nächsten Wortes gegeben des vorherigen Kontexts. Ein Sprachmodell weist jedem möglichen Satz eine Wahrscheinlichkeit zu, wobei grammatikalisch korrekte und semantisch sinnvolle Sätze höhere Wahrscheinlichkeiten erhalten.

N-Gramm-Modelle

Ein Bigramm-Modell approximiert die Wahrscheinlichkeit eines Wortes durch die bedingte Wahrscheinlichkeit gegeben nur des unmittelbar vorhergehenden Wortes. Ein Trigramm-Modell berücksichtigt die beiden vorhergehenden Wörter. Diese Wahrscheinlichkeiten werden durch Zählen relativer Häufigkeiten in einem Trainingskorpus geschätzt. Für das Trigramm "der Hund bellt" zählt man, wie oft "bellt" nach "der Hund" auftritt, und dividiert durch die Gesamthäufigkeit von "der Hund".

N-Gramm-Modelle mit höherem n erfassen längere Abhängigkeiten, leiden aber unter Data Sparsity: Bei einem Vokabular von 100.000 Wörtern gibt es 1.000 Milliarden mögliche Trigramme, von denen die allermeisten in Trainingsdaten nicht vorkommen. Die Wahrscheinlichkeit für nicht beobachtete N-Gramme wäre Null, was problematisch ist, da in neuen Texten immer ungesehene Kombinationen auftreten.

Smoothing-Techniken

Smoothing-Techniken adressieren das Problem ungesehener N-Gramme durch Umverteilung von Wahrscheinlichkeitsmasse. Laplace-Smoothing addiert eine kleine Konstante (typisch 1) zu allen Zählungen, sodass kein N-Gramm die Wahrscheinlichkeit Null erhält. Add-k-Smoothing verallgemeinert dies mit variablem k < 1.

Kneser-Ney-Smoothing ist ein anspruchsvolleres Verfahren, das die Diversität der Kontexte berücksichtigt, in denen ein Wort auftritt. Es unterscheidet zwischen häufigen Wörtern, die in vielen verschiedenen Kontexten vorkommen (z.B. "ist"), und seltenen Wörtern, die nur in spezifischen Kontexten auftreten (z.B. Eigennamen). Kneser-Ney ist heute der Standard-Smoothing-Ansatz und erreicht niedrigere Perplexitäten als einfachere Methoden.

Backoff-Modelle greifen auf niedrigere N-Gramm-Ordnungen zurück, wenn ein höheres N-Gramm nicht im Training beobachtet wurde. Wenn ein 5-Gramm unbekannt ist, verwendet das Modell das entsprechende 4-Gramm, dann 3-Gramm, bis zu Unigrammen (einzelne Worthäufigkeiten).

Perplexität als Evaluationsmetrik

Perplexität ist die Standardmetrik zur Evaluation von Sprachmodellen. Sie misst, wie "überrascht" ein Modell von einem Testtext ist, basierend auf den vorhergesagten Wahrscheinlichkeiten. Niedrige Perplexität bedeutet, dass das Modell die Wortfolge gut vorhersagen konnte. Praktisch bedeutet eine Perplexität von 100, dass das Modell im Durchschnitt zwischen 100 gleich wahrscheinlichen Wörtern unsicher ist.

N-Gramm-Modelle erreichten auf englischen Textkorpora typischerweise Perplexitäten von 50-200, abhängig von Korpusgröße, Vokabular und n. Moderne neuronale Sprachmodelle erzielen Werte unter 20, was ihre deutlich bessere Vorhersagekraft demonstriert.

Feature Engineering und Textrepräsentation

Klassische Machine-Learning-Ansätze für NLP erforderten die manuelle Definition relevanter Features, die Texte in numerische Vektoren transformierten. Die Qualität dieser Features bestimmte maßgeblich die Modellperformanz.

Bag-of-Words

Bag-of-Words (BoW) ist die einfachste Textrepräsentation und ignoriert die Wortstellung vollständig. Ein Dokument wird als Vektor dargestellt, wobei jede Dimension einem Wort aus dem Vokabular entspricht und der Wert die Häufigkeit des Wortes im Dokument angibt. Der Satz "der Hund jagt die Katze" wird zu einem Vektor [1, 1, 1, 1, 1] für das Vokabular ["der", "die", "Hund", "jagt", "Katze"].

BoW-Vektoren sind hochdimensional (Vokabulargrößen von 10.000-100.000 Wörtern) und spärlich besetzt, da jedes Dokument nur einen Bruchteil aller möglichen Wörter enthält. Trotz der Einfachheit funktioniert BoW gut für Dokumentenklassifikation und Themenmodellierung, da die Wortpräsenz oft ausreichend Information über den Inhalt liefert.

TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) gewichtet Wörter nach ihrer Wichtigkeit. Term Frequency (TF) ist die normalisierte Worthäufigkeit im Dokument, Inverse Document Frequency (IDF) misst, wie selten ein Wort über alle Dokumente hinweg ist. Das TF-IDF-Gewicht ist das Produkt TF × IDF.

Häufige, aber unspezifische Wörter wie "der" oder "ist" erhalten niedrige TF-IDF-Werte, da ihr IDF gering ist (sie kommen in fast allen Dokumenten vor). Charakteristische Wörter eines Dokuments, die selten im gesamten Korpus sind, erhalten hohe Werte. TF-IDF-Vektoren verbessern die Leistung bei Informationsretrieval und Dokumentenklassifikation deutlich im Vergleich zu einfachen BoW-Repräsentationen.

N-Gramm-Features

N-Gramm-Features erweitern Bag-of-Words um Informationen über Wortfolgen. Bigramm-Features erfassen alle aufeinanderfolgenden Wortpaare, Trigramm-Features alle Wort-Tripel. Der Satz "nicht sehr gut" wird durch die Bigramme "nicht sehr" und "sehr gut" repräsentiert, die gemeinsam eine positive Bewertung mit Einschränkung signalisieren.

Character-N-Gramme verwenden Zeichenfolgen statt Wörter und sind robust gegenüber Tippfehlern und morphologischen Variationen. Das Wort "Kommunikation" wird durch Trigramme wie "Kom", "omm", "mmu", ..., "ion" repräsentiert. Bei Tippfehlern ("Komunication") bleiben viele Trigramme erhalten, was Ähnlichkeit detektierbar macht.

Linguistische Features

Linguistische Features nutzen explizites sprachwissenschaftliches Wissen. POS-Tag-Verteilungen erfassen syntaktische Eigenschaften: Wissenschaftliche Texte haben mehr Nomen, narrative Texte mehr Verben. Dependency-Pfade zwischen Wörtern dienen als Features für Relation Extraction. Named Entity Features markieren Vorhandensein und Typ von Entitäten. Sentiment-Lexika liefern Features für Sentiment-Analyse: Anzahl positiver/negativer Wörter, Intensität von Adjektiven, Vorhandensein von Negationen.

Diese Features erfordern Preprocessing-Pipelines mit spezialisierten Werkzeugen (POS-Tagger, NER-Systeme, Parser), liefern aber interpretierbare und oft effektive Repräsentationen. Der Nachteil ist der manuelle Aufwand: Für jede neue Aufgabe oder Domäne müssen Experten relevante Features definieren und evaluieren.

Fazit

Klassische NLP-Techniken bilden das konzeptionelle Fundament der Sprachverarbeitung. Tokenisierung, POS-Tagging, Parsing und Feature Engineering sind nach wie vor Bestandteile vieler Preprocessing-Pipelines. In ressourcenbeschränkten Umgebungen, für spezialisierte Domänen oder bei Anforderungen an Interpretierbarkeit bleiben diese Methoden relevant und oft praktischer als End-to-End-Neuronale Ansätze.

Das Verständnis dieser klassischen Techniken ist wichtig für die Einordnung moderner Ansätze. Neuronale Modelle lernen oft implizit ähnliche Repräsentationen, die klassische Systeme explizit konstruieren. Hybride Ansätze, die neuronale Modelle mit linguistischen Features oder Regeln kombinieren, repräsentieren oft den praktikabelsten Weg für reale Anwendungen.

Der nächste Artikel dieser Serie zeigt, wie diese Techniken in konkreten Anwendungen kombiniert werden und welche Herausforderungen in der Praxis auftreten.

Teil der Serie Natural Language Processing Grundlagen

Alle Artikel zum Thema Natural Language Processing