Einführung in Text Mining

Eine Einführung in das Thema Text Mining, die Abgrenzung zum Natural Language Processing und einer Reihe von Einsatzgebieten und Anwendungsbeispielen nach Branche und Unternehmensabteilung.

Veröffentlicht am 01.04.2022. Zuletzt aktualisiert am 22.12.2022. 645 Wörter.

Text Mining ist eine Methode zur automatisierten Extraktion neuer, relevanter Informationen aus und der Erkennung von Muster und Trends in großen Mengen von Textdaten. Text Mining wird als Variante des Data Mining betrachtet und setzt Verfahren aus dem maschinellen Lernen und dem Deep Learning ein. Folgende Verfahren werden typischerweise unterschieden:

  • Classification: Bei der Klassifikation werden Texte in vordefinierte Kategorien eingeteilt. In der Sentimentanalyse heißen diese Kategorien z.B. positiv, negativ oder neutral, um so die Stimmung in Texten zu analysieren. Die Klassifikation zählt zu den überwachten Lernverfahren und es werden eine Reihe von Trainingsdaten (Beispieltexte mit vorgegebener Klasse) benötigt, um das Verfahren anzulernen.
  • Clustering: Beim Clustering werden ähnliche Texte in Gruppen zusammengefasst. Solche Verfahren können dazu verwendet werden, um ähnliche Themen in einer Sammlung von Texten zu identifizieren (Topic Modeling), was zusammengefasst wird, hängt jedoch von dem gewählten Ähnlichkeitsmaß ab. Das Clustering zählt zu den unüberwachten Lernverfahren, es werden keine Trainingsdaten benötigt.

Da die in Presse, Unternehmen, Behörden und privaten Initiativen produzierten Textmengen immer weiter zu nehmen und die Kapazitäten des Menschen begrenzt, ist Text Mining ein wichtiges Hilfsmittel, um den Überblick zu wahren, aktuelle Entwicklungen zu erkennen und neue Muster zu identifizieren.

Text Mining und Natural Language Processing

Text Mining wird von Natural Language Processing (NLP) abgegrenzt. Während es beim NLP darum geht, unstrukturierte bzw. semistrukturierte Daten (die Texte) mit Hilfe linguistischer Methoden (Tokenisation, Stemming, Vektorisierung, …) vorzuverarbeiten, geht es beim Text Mining darum, diese vorverarbeiteten Daten auszuwerten. Ohne diese Vorverarbeitung können (klassische) Text Mining Verfahren Texte nicht auswerten.

Einsatzgebiete

Ein Beispiel für den Einsatz von Text Mining ist die automatische Analyse von Kundenfeedback, um herauszufinden, welche Produkte oder Dienstleistungen gut bzw. schlecht aufgenommen werden und welche Themen Interessenten und Kunden bewegen. Im Kundenservice kann Text Mining dazu beitragen, die häufigsten Kundenanfragen zu identifizieren und zu priorisieren. Weiterhin kann Text Mining dazu verwendet werden, um Stimmungen und Tendenzen zu analysieren und zu verstehen, wie bestimmte Produkte oder Dienstleistungen in der Öffentlichkeit wahrgenommen werden. Text Mining kann auch in der Medienüberwachung eingesetzt werden, um beispielsweise die Berichterstattung über bestimmte Themen oder Unternehmen zu verfolgen und zu analysieren. Die Ergebnisse dieser Analyse können dann zur Entscheidungsfindung oder zur Verbesserung von Geschäftsprozessen verwendet werden.

Konkrete Einsatzgebiete von Text Mining Verfahren nach Branche sind:

  • Hochschulwesen: Ähnlichkeitsanalyse von Texten zur Identifikation von Plagiaten
  • Justiz: Kategorisierung von Urteilen und zugehörigen Begründungen, um relevante Urteile für den vorliegenden Fall zu finden
  • Marketing: Text Mining kann verwendet werden, um Kundenfeedback zu analysieren und Verbesserungspotentiale zu identifizieren
  • Gesundheitswesen: Identifikation von medizinischen Fachpublikationen zur Klassifikation nach Krankheiten und verwandter Gesundheitsprobleme.
  • Handel: Automatische Auswertung von Inseraten von Mitbewerbern zur Extraktion von Preisinformationen und Angebotsumfang.
  • Politik: Analyse von Reden und Gesprächsprotokolle untersucht werden zur Erkennung von charakteristischen Themen von Parteien und Personen des öffentlichen Lebens.
  • Werbeagenturen: Überwachung der Berichterstattung über Produkte und Unternehmen
  • Finanzindustrie: Automatische Analyse von Nachrichten und Unternehmensberichten zur Bewertung von Risiken und Verbesserung von Investitionsentscheidungen.
  • Versicherungswesen: Erkennung von problematischen Versicherungsfällen, die eine genauere Prüfung benötigen.
  • Internetprovider: Erkennung von E-Mail-Spam, Newslettern und weiteren möglicherweise unerwünschten Nachrichten.

Konkrete Einsatzgebiete von Text Mining Verfahren nach Abteilung sind:

  • Support: Identifikation der häufigsten Kundenanfragen zur Verbesserung des Produkts oder der Dienstleistung, Priorisierung von Kundenanfragen.x
  • Human Resources: Analyse von Lebensläufen, Analyse von Jobbeschreibungen auf Jobbörsen zur Bestimmung des Bewerberpotentials und -konkurrenz
  • Marketing: Analyse von Kundenfeedback, Überwachung von Social-Media und Presseartikeln zur Bestimmung der Markenidentität, Reputation und möglicher Bedrohungen
  • Sales: Identifikation von Interessenten (Leads)
  • Procurement: Recherche von Anbietern und Überwachung der Reputation entlang der Lieferkette
  • Research and Development: Analyse von wissenschaftlichen Artikeln und Patenten zur Identifikation von neuen Ideen und Technologien und der Erstellung von Wissenslandkarten
  • Finance und Controlling: Überwachung von Medien zum besseren Verständnis von Markttrends und Wettbewerbern, Überwachung der Mitarbeiterkommunikation zur Aufdeckung von Betrug