×
Menü
Index

TreeTagger (eigenes Skript)

 
Vorbemerkung: Dieser Tagger setzt voraus, dass Sie den TreeTagger und die gewünschten Sprachmodelle selbst installieren. Nutzen Sie alternativ den integrierten TreeTagger des CorpusExplorers.
 
Voraussetzung:
 
Der TreeTagger von Helmut Schmid(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) ist performant und liefert qualitativ hochwertige Ergebnisse (insbesondere für Deutsch und Englisch). Der TreeTagger ermittelt folgende Informationen: Satzgrenzen, Token, Lemma, POS sowie Phrasen. Dieser Tagger erlaubt es, eigene TreeTagger-Skripte und Sprachpakete zu nutzen (die über den Standardumfang des CorpusExplorers hinaus gehen - siehe).
 
CorpusExplorer-REM-Header
Die zweite Zeile der BATCH-Datei (direkt nach: @echo off) sollte der so genannte "CorpusExplorer-REM-Header" sein. Dieser ist wie folgt aufgebaut:
 
Bsp. (Skript erkennt Phrasen):
@echo off
REM CorpusExplorer | PUNCT | VP, NP, PP
... weiterer BATCH-Code
 
Bsp. (Skript erkennt KEINE Phrasen):
@echo off
REM CorpusExplorer | PUNCT
... weiterer BATCH-Code
 
Erklärung:
Der Header besteht aus drei Sektionen, die mittels "|" voneinader getrennt werden. Die Sektionen haben folgende Bedeutung: