Herausforderungen und Grenzen von Sentiment Analyseverfahren

Ein Überblick über die offenen Herausforderungen von Verfahren zur automatischen Erkennung von Stimmung und Polarität in natürlicher Sprache

Veröffentlicht am 01.12.2022. Zuletzt aktualisiert am 01.12.2022. 535 Wörter.

Der Einsatz von Deep Learning Ansätzen zur Sentimentanalyse haben in den letzten Jahren zu erheblichen Verbesserungen gegenüber früheren Ansätzen geführt. Sentimentanalyse bezeichnet hierbei Verfahren, die versuchen Polaritäten (positiv/negativ) gegenüber Entitäten (Produkte, Personen, Parteien, …) in Texten automatisch zu bestimmen. Verschiedene Herausforderungen bleiben jedoch trotz kontextsensitiver Sprachmodelle bestehen. Die folgende Auflistung bietet einen Überblick über einige der offenen Fragestellungen. Sollten die zu analysierenden Texte solche Elemente beinhalten ist unbedingt manuell zu überprüfen, ob der Einsatz dieser Verfahren eine ausreichende Genauigkeit für den gewählten Anwendungszweck bieten können.

Verneinung

Die Verneinung ist und bleibt eine große Herausforderung für Sentiment Analyseverfahren. Auf Satzebene können zwar Verneinungen grundsätzlich erkannt werden, jedoch treten Fehler auf, wenn unklar ist worauf sich die Verneinung, etwa in komplexeren Sätzen, bezieht.

Übertreibung

Die Erkennung von Übertreibung als Ironie ist für Sentiment-Klassifikatoren besonders schwierig, da sie oft mit einem kreativen Sprachgebrauch kombiniert werden.

Weltwissen

Sätze, deren korrekte Interpretation Weltwissen erfordert, stellen vielleicht die größte Herausforderung dar. Über Analogien werden Entitäten mit negativ oder positiv besetzen Figuren oder Symbolen verglichen. Ohne diese negative oder positive Besetzung ist es jedoch unmöglich einen solchen Satz korrekt zu interpretieren.

Sarkasmus und Ironie

Sarkasmus und Ironie, oft bei stark negativen Aussagen stellen Sentiment Analyseverfahren erwartungsgemäß vor große Herausforderungen. Ironie ist häufig als "Verletzung von Erwartungen" definiert wird. Dies setzt jedoch voraussetzt, dass Erwartungen überhaupt vorhanden sind, was wiederum Weltwissen voraussetzt.

Redewendungen

Bildhafte Sprache und Redewendungen stellen eine erbliche Herausforderung dar, insbesondere wenn diese vom Verfasser auf den Fall, kombiniert mit Humor oder Sarkasmus, abgewandelt werden.

Intensivierung

Verstärkung und der Abschwächung intensivierbarer sprachlicher Ausdrücke. Verstärkende Begriffe (sehr, fantastisch, … oder weniger, spärlich, …) oder Abschwächungen stellen Sentimentanalyseverfahren vor ein erhebliches Gewichtungsproblem.

Verschiebungen

Verschiebungen verschieben normalerweise Wörter mit positiver Polarität in Richtung einer eher negativen Stimmung. Ein Beispiel hierfür ist das Wort "vermissen", z.B. in "Ich vermisse die positive Grundstimmung früherer Filme des Regisseurs."

Komparative

Die Auflösungen von Komparativen, also Vergleichen zwischen zwei oder mehr Entitäten, ist für diese Art von Verfahren schwierig. Zum einen müssen die Bezüge innerhalb eines Satzes aufgelöst werden und zum anderen ist Weltwissen für eine korrekten Vergleich notwendig.

Modalität

Ausgedrückt durch Modalverben wie müssen, können oder Adverbien wie möglicherweise, vielleicht, bestimmt ermöglicht es Modalität dem Verfasser Absicht, Motivation oder Erwartung auszudrücken. Solche sprachlichen Feinheiten werden i.d.R. durch Sentiment Analysen nicht erfasst. Beispiel: „Ich konnte nicht anders, als ins Bett gehen“.

Gemischte Polarität

Da die Sentimentanalyse heute auf Satzebene operiert, geht einer der größten Probleme mit der Mischung von Polarität innerhalb eines Satzes einher. Dabei handelt es sich um Sätze, in denen zwei unterschiedliche Polaritäten ausgedrückt werden, entweder gegenüber zwei verschiedenen Entitäten oder gegenüber ein und derselben Entität. Während der erste Fall durch einen feinkörnigeren Ansatz (die sogenannte Aspekt-Ebene) gelöst werden kann, ist der zweite Fall schwieriger. Ein typisches Beispiel sind "aber"-Sätze, die eine Gewichtung von Aussagen gegenüber der gleichen Entität erfordern.