UDPipe

UDPipe ist wohl der Tagger mit den meisten verfügbaren Sprachen. Aktuell werden folgende Informationen mittels UDPipe ermittelt: Token, Satzgrenzen, Lemma und POS. Die Erkennung von Phrasen und Satzstrukturen (Syntax-Bäumen) ist aktuell in der Entwicklungsphase.
 
Verfügbare Sprachmodelle:
  • Altgriechisch (PROIEL)
  • Altgriechisch
  • Arabisch
  • Baskisch
  • Bulgarisch
  • Chinesisch
  • Deutsch
  • Dänisch
  • Englisch (LINES)
  • Englisch (PARTUT)
  • Englisch
  • Estnisch
  • Finnisch (FTB)
  • Finnisch
  • Französisch (PARTUT)
  • Französisch (SEQUOIA)
  • Französisch
  • Galicisch (TREEGAL)
  • Galicisch
  • Gotisch
  • Griechisch
  • Hebräisch
  • Hindi
  • Indonesisch
  • Italienisch
  • Irisch
  • Japanisch
  • Kasachisch
  • Katalanisch
  • Koptisch
  • Koreanisch
  • Kroatisch
  • Latein (ITTB)
  • Latein (PROIEL)
  • Latein
  • Lettisch
  • Litauisch
  • Niederländisch (LASSYSMALL)
  • Niederländisch
  • Norwegisch (BOKMAAL)
  • Norwegisch (NYNORSK)
  • Persisch
  • Polnisch
  • Portugiesisch (BR)
  • Portugiesisch
  • Rumänisch
  • Russisch (SYNTAGRUS)
  • Russisch
  • Sanskrit
  • Slawisch
  • Slowakisch
  • Slowenisch (SST)
  • Slowenisch
  • Spanisch (ANCORA)
  • Spanisch
  • Schwedisch (LINES)
  • Schwedisch
  • Tamilisch
  • Tschechisch (CAC)
  • Tschechisch (CLTT)
  • Tschechisch
  • Türkisch
  • Ukrainisch
  • Ungarisch
  • Urdu
  • Uighurisch
  • Vietnamesisch
  • Weißrussisch