TreeTagger (eigenes Skript)

 
Vorbemerkung: Dieser Tagger setzt voraus, dass Sie den TreeTagger und die gewünschten Sprachmodelle selbst installieren. Nutzen Sie alternativ den integrierten TreeTagger des CorpusExplorers.
 
Voraussetzung:
  • Sie haben den TreeTagger manuell installiert.
  • Es exsistiert eine BATCH-Datei (*.bat) für das gewünschte Sprachpaket.
  • [OPTIONAL] Der BATCH-Datei sollte der CorpusExplorer-REM-Header vorangestell werden.
 
Der TreeTagger von Helmut Schmid(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) ist performant und liefert qualitativ hochwertige Ergebnisse (insbesondere für Deutsch und Englisch). Der TreeTagger ermittelt folgende Informationen: Satzgrenzen, Token, Lemma, POS sowie Phrasen. Dieser Tagger erlaubt es, eigene TreeTagger-Skripte und Sprachpakete zu nutzen (die über den Standardumfang des CorpusExplorers hinaus gehen - siehe).
 
CorpusExplorer-REM-Header
Die zweite Zeile der BATCH-Datei (direkt nach: @echo off) sollte der so genannte "CorpusExplorer-REM-Header" sein. Dieser ist wie folgt aufgebaut:
 
Bsp. (Skript erkennt Phrasen):
@echo off
REM CorpusExplorer | PUNCT | VP, NP, PP
... weiterer BATCH-Code
 
Bsp. (Skript erkennt KEINE Phrasen):
@echo off
REM CorpusExplorer | PUNCT
... weiterer BATCH-Code
 
Erklärung:
Der Header besteht aus drei Sektionen, die mittels "|" voneinader getrennt werden. Die Sektionen haben folgende Bedeutung:
  • REM CorpusExplorer - Dient nur zur Identifikation des REM-Headers. Beachten Sie die Groß- und Kleinschreibung.
  • PUNCT - Der POS-Tag, der das Satzende markiert. Dieser Tag ist für viele Sprachpakete unterschiedlich. Bsp.: Deutsch = $. / Französisch = SENT / Spanisch = FS - Wird hier der falsche POS-Tag gesetzt, dann funktioniert die Erkennung der Satzgrenzen nicht korrekt.
  • VP, NP, PP - Unterstützt das Sprachpaket die Erkennung von Phrasen, dann können Sie diese ebenfalls importieren. Phrasen müssen in der TreeTagger-Ausgabe als TAG ausgezeichnet sein (z. B. <VP> ... </VP>). Geben Sie zur Phrasenerkennung alle möglichen Phrasen-TAGs ein (getrennt durch ,-Kommata).