Opinion Mining / SePL (Sentiment Phrase List)

SePL (Sentiment Phrase List)

Sentiment Phrase List (SePL) ist eine Liste von meinungstragenden Wörtern sowie Phrasen. Diese wird derzeit für die deutsche Sprache angeboten. Eine Liste für die englische Sprache ist in Planung.

Die Liste enthielt in Version 1.0 Adjektive und Substantive sowie adjektiv- und substantivbasierte Phrasen mit ihrem Meinungswert zwischen -1,00 und +1,00. Pro Wort oder Phrase werden zudem 2 Qualitätsmerkmale angegeben. Die Liste wurde auf Basis einer großen Anzahl von Produktreviews (deren Titel sowie der Sterne-Wertung) erstellt.

Die Phrasen wurden alle lemmatisiert, d.h. auf ihre Grundform zurückgeführt. Die Phrasen "kleiner", "kleines" und "kleine" wurden so auf "klein" zurückgeführt, die Phrase "große Hilfe" auf "groß Hilfe".

Mit der aktuellen Version 1.1 wurde die Liste zum einen um Verben sowie verbbasierte Phrasen erweitert. Des Weiteren wurde als Basis neben den Titeln der Produktreviews nun ebenfalls der Reviewtext berücksichtigt. So konnte die Liste auf über 14.000 Einträge erweitert werden. Zudem wurde eine manuelle Korrektur vorgenommen um "Ausreißer" zu berichtigen. Hierbei wurde auf den Meinungswert geschaut und dieser wenn nötig korrigiert. So kann eine korrigierte Phrase neutral (0,00) sowie schwach werdend (±0,40) oder stark wertend (±0,80) sein. Die berichtigten Phrasen werden durch eine weitere Spalte in der Liste markiert.

Das Vorgehen zur Erstellung der Liste ist detailliert in den Veröffentlichungen A Generic Approach to Generate Opinion Lists of Phrases for Opinion Mining Applications und A Phrase-Based Opinion List for the German Language beschrieben.

SePL kann über das Anfrageformular angefordert werden. Einen Auszug aus der deutschen Liste können Sie sich hier herunterladen: 

Folgende Tabelle zeigt den Aufbau der Liste.

Phrase Opinionwert Standardabweichung Standardfehler Typ Korrektur
einfach gut 0.93 0.19 0.01 a  
großartig 0.95 0.23 0.01 a  
sehr gut 0.90 0.22 0.00 a  
nur Schrott -0.85 0.52 0.10 n  
nur schlecht -0.97 0.16 0.01 a  
bayrisch 0.00 0.00 0.00 a m
  • Phrase - Ein oder mehrere Worte, die eine Meinung ausdrücken.
  • Opinionwert - Meinungswert zwischen -1,0 (sehr negativ) und 1,0 (sehr positiv)
  • Standardabweichung - Ein kleiner Wert zeigt an, dass das Wort / die Phrase sehr einheitlich, also fast immer entweder positiv, neutral oder negativ verwendet wird.
  • Standardfehler - Ein kleiner Wert zeigt an, dass das Wort sehr einheitlich verwendet wird und dass der Opinionwert auf einer sehr großen Anzahl von Bewertungen basiert.
  • Phrasentyp - a=adjektivbasiert, n=nomenbasierte Pharse
  • Manuelle Korrektur - m=manuell korrigiert
  • Für eine detaillierte Beschreibung siehe oben genannte Veröffentlichungen.