×
Menü
Index

Beispiel: Mit der CorpusExplorerConsole Texte annotieren (bzw. konvertiert)

Beispiel: Mit der CorpusExplorerConsole Texte annotieren (bzw. konvertiert)
 
Was macht dieser Befehl?: Der Befehl ruft die CorpusExplorerConsole (CEC) auf, annotiert alle TXT-Plaintext-Dateien im Verzeichnis C:\corpus\ mit dem TreeTagger (Deutsches-Sprachmodel) und speichert das Ergebnis als CEC6-Datei unter C:\corpus.cec6
 
Im Folgenden werden die einzelnen Abfragekomponenten kurz erklärt. Am Ende finden Sie das komplette Beispiel als Copy&Paste
1

cec

1. cec
Aufruf der CorpusExplorerConsole
2

Input - Das Ausgangsmaterial

2. Input - Das Ausgangsmaterial
Dieser Befehl besteht aus folgenden Komponenten:
  • annotate - Sagt aus, dass es sich bei dem Material um noch nicht annotiertes Material handelt.
  • TxtScraper - Dies ist das Format in dem das unannotierte Material vorliegt. Starten Sie "cec.exe" ohne Parameter, um die Liste der verfügbare ANNOTATE-Formate anzuzeigen.
  • ClassicTreeTagger - Dies ist der klassich konfigurierte TreeTagger. Starten Sie "cec.exe" ohne Parameter, um die Liste der verfügbare TAGGER inkl. Sprachpakete anzuzeigen.
  • Deutsch - Das gewählte Sprachpaket. Achten Sie darauf, dass das Sprachpaket exakt der Auflistung entspricht. Sonst bleibt die Ausgabe leer.
  • "C:\corpus\" - annotate erwartet als Eingabe ein Verzeichnis. Alle Dateien in diesem Verezichnis werden eingelesen - vermeiden Sie daher Verzeichnisse mit gemischten Dateitypen.
3

Task - convert

3. Task - convert
convert kann genutzt werden, um ein Format in ein anderes zu konvertieren.
Hier wird convert genutzt, um die Ergebnisse der Annotation im CEC6-Format zu speichern.
So gespeicherte Ergebnisse können später mit:
cec import#ImporterCec6#
ohne erneute Annotation geladen werden.
4

Output

4. Output
Wie unter 3 beschrieben, wir hier eine CEC6-Datei erstellt. Sie können aber auch
 
Copy&Paste:
cec annotate#TxtScraper#ClassicTreeTagger#Deutsch#"C:\corpus\" convert ExporterCec6#"C:\corpus.cec6"
Hinweis: Achten Sie darauf, dass der Ordner C:\test exsistiert und TXT-Dateien enthält (und zwar NUR txt-Dateien, die CEC unterscheidet/prüft hier nicht). Passen Sie ggf. den Dateipfad an.