Beispiel: Mit der CorpusExplorerConsole Texte annotieren (bzw. konvertiert)
Was macht dieser Befehl?: Der Befehl ruft die CorpusExplorerConsole (CEC) auf, annotiert alle TXT-Plaintext-Dateien im Verzeichnis C:\corpus\ mit dem TreeTagger (Deutsches-Sprachmodel) und speichert das Ergebnis als CEC6-Datei unter C:\corpus.cec6
Im Folgenden werden die einzelnen Abfragekomponenten kurz erklärt. Am Ende finden Sie das komplette Beispiel als Copy&Paste
annotate - Sagt aus, dass es sich bei dem Material um noch nicht annotiertes Material handelt.
TxtScraper - Dies ist das Format in dem das unannotierte Material vorliegt. Starten Sie "cec.exe" ohne Parameter, um die Liste der verfügbare ANNOTATE-Formate anzuzeigen.
ClassicTreeTagger - Dies ist der klassich konfigurierte TreeTagger. Starten Sie "cec.exe" ohne Parameter, um die Liste der verfügbare TAGGER inkl. Sprachpakete anzuzeigen.
Deutsch - Das gewählte Sprachpaket. Achten Sie darauf, dass das Sprachpaket exakt der Auflistung entspricht. Sonst bleibt die Ausgabe leer.
"C:\corpus\" - annotate erwartet als Eingabe ein Verzeichnis. Alle Dateien in diesem Verezichnis werden eingelesen - vermeiden Sie daher Verzeichnisse mit gemischten Dateitypen.
convert kann genutzt werden, um ein Format in ein anderes zu konvertieren. Hier wird convert genutzt, um die Ergebnisse der Annotation im CEC6-Format zu speichern. So gespeicherte Ergebnisse können später mit:
cec import#ImporterCec6# ohne erneute Annotation geladen werden.
Hinweis: Achten Sie darauf, dass der Ordner C:\test exsistiert und TXT-Dateien enthält (und zwar NUR txt-Dateien, die CEC unterscheidet/prüft hier nicht). Passen Sie ggf. den Dateipfad an.