×
Menü
Index

Dokumente annotieren

Diese Anleitung erklärt, wie Sie aus Text-Dateien (auch PDF, MSWord, RTF, etc.) ein Korpus erstellen können.
 
Voraussetzung:
 
Vorbemerkung:
 
Anleitung - via Korpusmenü:
 
 
 
Folgende Dateiformate und Tagger stehen zur Verfügung:
 
Annotierbare Dateiformate (Basis)
APAEK-Unterrichtstranskript (*.pdf)|*.pdf
AnnotationPro (*.ant)
CLARIN ContentSearch CSV-Export (*.csv)
CorpusExplorer Rohdaten (*.sdd)
COSMAS-TXT (*.rtf)
CSV-Datei mit Überschriften (*.csv)
DocPlusXmlCorpus (*.dpxc)
Dortmunder Chat Korpus (*.xml)
D-Spin Slash/A (*.xml)
DTA-Basisformat (*.tcf.xml)
EasyHashtag Plaintext (*.ehp)
EPUB-eBook (*.epub)
EXMERaLDA-Basic (*.exb)
FOLKER-Transkript (*.flk)
KiDKo/E-Scraper (*.xlsx)
LexisNexis-HTML (*.html)
Mediawiki/Wikipedia-DUMP (*.xml)
Nur Text (*.docx; *.doc)
Nur Text (*.html)
Nur Text (*.pdf - via iTextSharp (location))
Nur Text (*.pdf - via iTextSharp (simple))
Nur Text (*.pdf)
Nur Text (*.rtf)
Plain-TXT (*.txt)
PostgreSQL-XML-Dump (*.xml)|*.xml
TiGER-XML (*.xml)
Twitter via yourTwappaKeeper (*.php)
Twitter-JSON via StreamAPI (*.json)
Twitter-Status-JSON via SearchAPI (*.json)|*.json
Universeller Excel-Scraper (*.xlsx)
WebLicht-XML (*.xml)
WET-Format http://commoncrawl.org (*.warc.wet)|*.warc.wet
Annotierbare Dateiformate (mit zusätzlichen Add-ons)
Add-on: Apache Tika
Auf gut Glück mit Apache Tika (*.*)
Add-on: Toxy
Auf gut Glück mit Toxy (*.*)
Add-on: Pandoc
PANDOC [commonmark] (*.txt; *.*)
PANDOC [docbook] (*.docbook; *.xml; *.*)
PANDOC [Microsoft Word] (*.docx)
PANDOC [epub] (*.epub)
PANDOC [haddock] (*.txt; *.*)
PANDOC [html] (*.html)
PANDOC [json] (*.json)
PANDOC [LaTeX] (*.tex; *.latex; *.*)
PANDOC [markdown] (*.txt; *.*)
PANDOC [markdown - github] (*.txt; *.*)
PANDOC [markdown - mnd] (*.txt; *.*)
PANDOC [markdown - phpextra] (*.txt; *.*)
PANDOC [markdown - strict] (*.txt; *.*)
PANDOC [wikipedia / mediawiki] (*.txt; *.*)
PANDOC [native] (*.txt; *.*)
PANDOC [OpenOffice / LibreOffice] (*.odt)
PANDOC [opml] (*.opml; *.*)
PANDOC [org] (*.txt; *.*)
PANDOC [rst] (*.rst; *.*)
PANDOC [t2t] (*.t2t; *.*)
PANDOC [textile] (*.txt; *.*)
PANDOC [twiki] (*.txt; *.*)
Verfügbare Tagger
Basis-Tagger
Keine Annotation - Nur Textimport
TreeTagger
TreeTagger (ohne Phrasen / höhere Performance)
TreeTagger (eigenes Skript)
TnT-Tagger
UDPipe (eigene/externe Installation)
Tagger Add-ons
MarMoT
OpenNLP (Percepton)
OpenNLP (Maxent)
Stanford POS
UDPipe
Verfügbare Backends
Verfügbare Backends (Basis)
CorpusExplorer v6
CorpusExplorer (EchtzeitEngine)
CorpusExplorer v5
Verfügbare Backends (mit zusätzlichen Add-ons)
ElasticSearch
MySQL
SQLite