• Claudia Lindner

Text Mining - Eine Definition

Aktualisiert: Juni 3

Mit der zunehmenden Menge an verfügbaren textbasierten Daten, bieten sich Unternehmen neue Möglichkeiten der Markt- und Kundenorientierung. Produktrezensionen, interne als auch externe E-Mail-Kommunikation, Berichte, Kommentare auf Websites und in Social Media etc. Eine Datenflut, die man sich mittels Text Mining zu Nutze machen kann. Anders als bei Data Analytics/Data Mining werden im Text Mining Texte, die noch keine Strukturierung aufweisen, anhand statistischer und linguistischer Verfahren analysiert, um daraus Muster, Meinungsbilder sowie Trends ablesen und in Maßnahmen der Konkurrenz- und Kundenentwicklung zu übersetzen. Bekannte Anwendungsbereiche und wie ein Text-Mining-Prozess abläuft, lesen Sie nachfolgend.

Text Mining - Eine Definition

Definition

Text Mining stellt eine Kombination von bestehenden Verfahren zur Datensuche und Datenverarbeitung dar, mittels derer noch nicht bekannte Informationen sowie Zusammenhängen oder Muster in Texten gesucht und anschließend visuell aufbereitet werden. Dazu werden die Texte nach wiederkehrenden Schlagworten, Wort Verbindungen und Formulierungen analysiert und klassifiziert. Ziel ist es, die Mehrdimensionalität von Texten zu reduzieren, den Zugang zu Daten und deren schnelle Interpretation zu ermöglichen sowie schlussendlich Maßnahmen für verbesserte Kunden-, Markt- und Wettbewerbsorientierung abzuleiten.

Text Mining kann dadurch helfen Fragen nach der Zufriedenheit von Kunden zu einem Produkt, Mitarbeitern zu einem Unternehmen oder die Wahrnehmung einer Marke von Soical Media Nutzern beantworten.


Der Prozess – Verfahren und Ablauf

Text Mining, das eine Kombination von bestehenden Verfahren zur Datensuche und -verarbeitung darstellt, verwendet u.a. das Information Retrieval- und das Information Extraction-Verfahren.

Zum einen kommt dabei das Information Retrieval-Verfahren (IR) zum Einsatz, bei welchem verschiedene Quellen nach relevanten Dokumenten und Daten durchsucht werden.

Zum anderen wird die Information Extraction (IE) zur Recherche nach Fakten in Textdateien verwendet, wozu die Dateien z.B. mittels Natural Language Processing (NLP) für die weitere Analyse aufbereitet werden. NLP setzt dabei Analyseprozesse auf linguistischer Ebene an, genau genommen auf morphologischer, syntaktischer und semantischer Ebene.

Ein Text-Mining-Prozess hat typischerweise den folgenden Ablauf (Vgl. dazu Abb.1):

1) Datenbasis: Die zu verwendende Datenbasis wird anhand vom Information Retrieval Verfahren direkt aus Web-Quellen oder Textdateien generiert.

2) Vorverarbeitung: In diesem Schritt wird der Datensatz u.a. mittels Information Extraction auf- und vorbereitet für die nächsten Schritte.

3) Transformation: Im dritten Schritt werden die Textdaten zur Analyse in eine Dokumentenmatrix transformiert. Anhand derer werden Vektoren generiert, die eine Ähnlichkeitsberechnung ermöglichen.

4) Selektion: So können die Daten im vierten Schritt zu Clustern gruppiert und klassifiziert werden.

5) Data Mining: Im letzten Arbeitsschritt werden die Daten analysiert und anschließend visuell aufbereitet. Anhand der aufgedeckten Zusammenhängen und Muster können nun weitere unternehmerische Maßnahmen geplant werden.

Abb.1: Typischer Ablauf eines Text Mining Prozesses

Grundlegende Anwendungsbereiche

Im Text Mining lassen sich vier grundlegende Anwendungsbereiche identifizieren:

Die Textkategorisierung, die Sentiment- bzw. Stimmungsanalyse, das Textclustering

sowie die Dokumentenzusammenfassung (Vgl. dazu Abb.2).

Abb. 2: Grundlegende Anwendungsbereiche von Text Mining

Die Textkategorisierung findet z.B. bei Spamfiltern Anwendung: Anhand von textuellen Klassifizierungen wird der Text in eintreffenden Mails als Spam markiert. Eine zuvor angelegte, definierte Struktur wird auf die Texte angewendet, um einfacher auf klassifizierte Daten zugreifen zu können.

Die Sentiment- bzw. Stimmungsanalyse (auch Opinion Mining) hat es zum Ziel, Meinungsbilder und Trends in Text-Dokumenten zu identifizieren. Sie versucht Gefühle (Sentiments) und Meinungen von z.B. Kunden aus den Texten zu filtern.

Textclustering dient zur Clusterbildung, also der Erstellung von Themengruppen bzw. Kategorien aus Textmengen zur leichteren Suche und Filterung von Informationen. Bei Suchmaschinen kommt das Textclustering zum Einsatz, um relevante Suchergebnisse zu erzielen. Sucht man beispielsweise nach „Bank“, werden die Ergebnisse unter Beachtung der Gruppierung „Finanzen“ und „Sitzgelegenheit“ dargestellt. Die Dokumentenzusammenfassung erstellt, wie der Name bereits vermuten lässt, eine Zusammenfassung der wichtigsten Aspekte eines Originals. Dieses Vorgehen findet auch bei den Ergebnislisten von SuchmaschinenAnwendung.


Anwendung bei liCili

Abb.3: Einsatz von Text Mining bei liCili

liCili nutzt Text Mining unter anderem für die Analyse von öffentlichen Bewertungen, NPS-Befragungen, Umfragen sowie E-Mails (Vgl. dazu Abb.3). Dabei werden mit Hilfe von KI Text Mining aus den Texten auf erster Ebene Über- und Unterthemen berechnet. Diese werden mit dem jeweiligen Sentiment belegt und anschließend einer detaillierteren Kontextanalyse unterzogen. Auf der nächsten und letzten Ebene wird, unter der Anwendung weiterer Information Retrieval- und Information Extraction-Verfahren, die Relevanz jedes einzelnen Textes berechnet. Dadurch ist es liCili möglich, die Texte Themenbedingt nach der Relevanz zu sortieren, um den Fokus direkt auf die wichtigsten Texte zu legen.

Durch die Anwendung von KI Text Mining in der Software von liCili ist es dadurch möglich, tausende Texte auf einen Blick zu überblicken und stufenweise im Detail zu verstehen. Gerne lädt liCili an dieser Stelle zu einem kostenlosen Test der Software ein: https://app.licili.io/register.

Mit dem Analysetool von liCili müssen Sie keine Kompromisse mehr eingehen.

Überzeugen Sie sich selbst und testen Sie bis zu 1.000 Texte kostenfrei und unverbindlich.

Sehen Sie auch andere Beiträge: