TreeTagger (ohne Phrasen / höhere Performance)

Der TreeTagger von Helmut Schmid(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/) ist sehr performant und liefert qualitativ hochwertige Ergebnisse (insbesondere für Deutsch und Englisch). Der TreeTagger ermittelt folgende Informationen: Satzgrenzen, Token, Lemma, POS. Diese Version verzichtet auf den rechenaufwendigen Prozess der Phrasen-Erkennung. Dadurch ist dieser Tagger wesentlich performanter, als die "Original-Version".
 
Verfügbare Sprachen:
  • Deutsch
  • Englisch
  • Französisch
  • Italienisch
  • Niederländisch
  • Spanisch
  • Polnisch
 
Hinweis zu verfügbaren Sprachen: Der TreeTagger kann weit mehr Sprachen verarbeiten. Alle Sprachen bereitzustellen, würde das Installationspaket jedoch immens vergrößern. Sollten Sie ein TreeTagger-Sprachpaket nutzen wollen, dass hier nicht aufgelistet ist, so stehen Ihnen die folgenden Möglichkeiten zur Verfügung:
  • Sie nutzen den Tagger: "TreeTagger (eigenes Skript)" (Anleitung siehe Link).
  • Sie schreiben mir eine kurze Nachricht und begründen, warum und wofür Sie das Sprachpaket benötigen. Je nach Kapazität kann dann das Sprachpaket innerhalb von fünf Werktagen global (für alle Nutzer*innen) oder individuell geliefert werden.
 
DANKE: Dank einer Sondererlaubnis kann der TreeTagger gebündelt mit dem CorpusExplorer ausgeleifert werden. Daher an dieser Stelle ein großes Dankeschön an Helmut Schmid.