×
Menü
Index

Korpora

Jedes Korpus stellt eine Textquelle dar, die nicht nur Texte, sondern auch Metadaten enthält. Der CorpusExplorer kann Textmaterial automatisch aufbereiten oder das Web nach Textquellen durchsuchen. Korpora werden in ein Projekt geladen und über die Schnappschüsse erfolgt ein selektiver Zugriff auf das Korpusmaterial. Korpora sind statisch und werden in der Philosophie des CorpusExplorers nicht verändert. Änderungen werden im Projekt hinterlegt.

Am Ende dieser Seite finden Sie ein Inhaltsverzeichnis zu allen verfügbaren Optionen.
 
Korpora
 
<TODO>: Hier Beschreibung einfügen... Vergessen Sie nicht, diesem Thema ein Schlüsselwort hinzuzufügen
1

Existierendes Korpus laden

1. Existierendes Korpus laden
Hinweis: Diese Option wird nur angezeigt, wenn Sie zuvor bereits mindestens ein Korpus mit den CorpusExplorer geladen haben.
Wenn Sie auf diesen Button klicken, dann werden alle Korpora im Ordner "Meine Dokumente\CorpusExplorer\Meine Korpora" aufgelistet. Klicken Sie auf den Korpusnamen, um das Korpus zu laden.
2

Dokumente annotieren

2. Dokumente annotieren
Mit dieser Option können Sie unannotiertes Textmaterial in den CorpusExplorer importieren.
Eine Anleitung finden Sie hier.
3

Korpus importieren

3. Korpus importieren
Bereits annotiertes Korpusmaterial können Sie über diese Option importieren.
4

Online-Korpus akquirieren

4. Online-Korpus akquirieren
Sie möchten eine Webseite als Korpus erschließen? - Kein Problem. Wählen Sie diese Option und folgen Sie der Anleitung.
 
Inhaltsverzeichnis - mögliche Optionen/Formate für Korpora:
Korpus laden
Dokumente annotieren
Annotierbare Dateiformate (Basis)
APAEK-Unterrichtstranskript (*.pdf)|*.pdf
AnnotationPro (*.ant)
CLARIN ContentSearch CSV-Export (*.csv)
CorpusExplorer Rohdaten (*.sdd)
COSMAS-TXT (*.rtf)
CSV-Datei mit Überschriften (*.csv)
DocPlusXmlCorpus (*.dpxc)
Dortmunder Chat Korpus (*.xml)
D-Spin Slash/A (*.xml)
DTA-Basisformat (*.tcf.xml)
EasyHashtag Plaintext (*.ehp)
EPUB-eBook (*.epub)
EXMERaLDA-Basic (*.exb)
FOLKER-Transkript (*.flk)
KiDKo/E-Scraper (*.xlsx)
LexisNexis-HTML (*.html)
Mediawiki/Wikipedia-DUMP (*.xml)
Nur Text (*.docx; *.doc)
Nur Text (*.html)
Nur Text (*.pdf - via iTextSharp (location))
Nur Text (*.pdf - via iTextSharp (simple))
Nur Text (*.pdf)
Nur Text (*.rtf)
Plain-TXT (*.txt)
PostgreSQL-XML-Dump (*.xml)|*.xml
TiGER-XML (*.xml)
Twitter via yourTwappaKeeper (*.php)
Twitter-JSON via StreamAPI (*.json)
Twitter-Status-JSON via SearchAPI (*.json)|*.json
Universeller Excel-Scraper (*.xlsx)
WebLicht-XML (*.xml)
WET-Format http://commoncrawl.org (*.warc.wet)|*.warc.wet
Annotierbare Dateiformate (mit zusätzlichen Add-ons)
Add-on: Apache Tika
Auf gut Glück mit Apache Tika (*.*)
Add-on: Toxy
Auf gut Glück mit Toxy (*.*)
Add-on: Pandoc
PANDOC [commonmark] (*.txt; *.*)
PANDOC [docbook] (*.docbook; *.xml; *.*)
PANDOC [Microsoft Word] (*.docx)
PANDOC [epub] (*.epub)
PANDOC [haddock] (*.txt; *.*)
PANDOC [html] (*.html)
PANDOC [json] (*.json)
PANDOC [LaTeX] (*.tex; *.latex; *.*)
PANDOC [markdown] (*.txt; *.*)
PANDOC [markdown - github] (*.txt; *.*)
PANDOC [markdown - mnd] (*.txt; *.*)
PANDOC [markdown - phpextra] (*.txt; *.*)
PANDOC [markdown - strict] (*.txt; *.*)
PANDOC [wikipedia / mediawiki] (*.txt; *.*)
PANDOC [native] (*.txt; *.*)
PANDOC [OpenOffice / LibreOffice] (*.odt)
PANDOC [opml] (*.opml; *.*)
PANDOC [org] (*.txt; *.*)
PANDOC [rst] (*.rst; *.*)
PANDOC [t2t] (*.t2t; *.*)
PANDOC [textile] (*.txt; *.*)
PANDOC [twiki] (*.txt; *.*)
Verfügbare Tagger
Basis-Tagger
Keine Annotation - Nur Textimport
TreeTagger
TreeTagger (ohne Phrasen / höhere Performance)
TreeTagger (eigenes Skript)
TnT-Tagger
UDPipe (eigene/externe Installation)
Tagger Add-ons
MarMoT
OpenNLP (Percepton)
OpenNLP (Maxent)
Stanford POS
UDPipe
Verfügbare Backends
Verfügbare Backends (Basis)
CorpusExplorer v6
CorpusExplorer (EchtzeitEngine)
CorpusExplorer v5
Verfügbare Backends (mit zusätzlichen Add-ons)
ElasticSearch
MySQL
SQLite
Korpus importieren
Verfügbare Korpusformate - Import (Basis)
CLAN Childes (*.cex)
CoNLL (*.conll)
CorpusExplorer v1-v4 [OBSOLETE]
CorpusExplorer (*.cec5)
CorpusExplorer (*.cec6)
CorpusExplorer CEFS (ROOT)
DEWAC
DTAbf Deutsches-Text-Archiv-Basisformat (.tcf.xml)
HYDRA-Korpora (HYDRA)
WebLicht (*.xml)
Verfügbare Korpusformate - Import (mit zusätzlichen Add-ons)
Add-on: Salt&Pepper
Aldt XML 1.0 (*.xml)
Aldt XML 1.5 (*.xml)
CoNLL (*.conll)
CoraXML (*.xml)
EXMARaLDA (*.exs)
Elan (*.xml)
GATE 2.0 (*.xml)
GATE 3.0 (*.xml)
Generic-XML (*.xml)
Graf (*.xml)
MMAX2 (*.mmax2)
Paula (*.xml)
PennTreebank (*.xml)
RST (*.rst)
SaltXml (*.xml; *.salt)
TCF (*.tcf)
TEI-XML (*.xml)
Tiger-XML (*.xml)
Tiger2-XML (*.xml)
Uam (*.xml)
Excel (*.xls) - bis 2007
Excel (*.xlsx) - ab 2007
Toolbox-XML (*.toolbox-xml)
TreeTagger (*.txt)
WebannoTSV (*.tsv)
Wolof (*.wolof)
Add-on: ElasticSearch
Add-on: MySQL
Add-on: SQLite
Online-Korpus akquirieren
WebCrawler erstellen
Tipp: Korpora verteilen
Tipp: Korpora exportieren / konvertieren
Mögliche Korpus-Probleme