Annotation des EuroParl-Korpus

  • Nach dem Start des CorpusExplorers sollten Sie in aller Regel zuerst einen Projektnamen vergeben.
  • Als zweites müssen Sie mindestens ein Korpus laden. Klicken Sie dazu in der Checkliste auf „Mindestens ein Korpus laden“.
  • Hier haben Sie vier Möglichkeiten. Die erste Möglichkeit „Existierendes Korpus laden“ steht nur dann zur Verfügung, wenn bereits Korpora im Ordner „Dokumente > CorpusExplorer > Meine Korpora“ vorhanden sind.
  • Die zweite Möglichkeit „Dokumente annotieren“ erlaubt es, aus sehr unterschiedlichen Textquellen ein Korpus zu erstellen. Extraktion von Text und Metadaten, sowie Bereinigung und Annotation laufen dabei vollautomatisch ab.
  • Die Optionen „Korpus importieren“ eignet sich, um bereits annotiertes
  • Korpusmaterial, zum Beispiel aus anderen Programmen, zu importieren.
  • Die vierte und letzte Option „Online Korpus akquirieren“ erlaubt es, Webseiten nach bestimmten Begriffen zu durchsuchen und die Suchergebnisse entsprechend als Korpusmaterial zu speichern.
  • Klicken Sie auf „Dokumente annotieren“ und wechseln Sie zu dem Ordner, in dem Sie die EuroParl Dateien abgelegt haben. Wie Sie sehen, tauchen keinerlei Dateien auf, das liegt daran, dass Sie zunächst unten rechts das korrekte Dateiformat wählen müssen.
  • Wie Sie in der Liste erkennen können, gibt es für verschiedene Dateiendungen mehrere Einträge. Zum Beispiel existieren für TXT-Dateien mehrere Auswahlmöglichkeiten. Der wesentliche Unterschied liegt hierbei in der Erschließung von Metadaten. Für die in diesem Video verwendeten EuroParl-Dateien gibt es einen speziellen Prozess der sich im Vergleich zum Standard-TXT dadurch unterscheidet, dass nicht nur der reine Text eingelesen wird, sondern auch die Metadaten – und anhand der Metadaten auch eine Auftrennung des EuroParl-Plenarprotokolls in einzelne Redebeiträge erfolgt.
  • Wählen Sie „EuroParl (*.txt)“ aus – danach werden alle verfügbaren Dateien mit dieser Endung angezeigt.
  • Wählen Sie einige davon exemplarisch aus und klicken Sie auf Öffnen. Die Dateien werden jetzt eingelesen, aufgetrennt und bereinigt. Alles was Sie tun müssen, ist abwarten.
  • Nachdem dieser Prozessschritt abgeschlossen wurde, erscheint ein Dialog, der alle erkannten Dokumente enthält. Rechts neben dem Text sehen Sie zudem die Metadaten: Das wären zum einen der Sprecher, die Originalsprache sowie verschiedene andere Informationen die im Protokoll vorhanden sind.
  • Klicken Sie auf „OK“ – Es erscheint ein Dialog, in dem Sie den Tagger auswählen und konfigurieren können. Die Standardeinstellung ist der TreeTagger mit deutschem Sprachmodell.
  • In dieser Liste können Sie den Tagger auswählen. Standardmäßig bringt der CorpusExplorer neben dem TreeTagger auch den TNT-Tagger mit sich sowie einen sprachunabhängigen Tagger für puren Textimport.
  • Abhängig vom gewählten Tagger sind die erweiterten Einstellungen. Hier können Sie das Sprachmodell wählen sowie einige detaillierte Konfigurationen vornehmen. Wenn Sie mit den Einstellungen zufrieden sind, klicken Sie auf „OK“.
  • Abschließend müssen Sie nur noch einen Korpusnamen vergeben; dieser wird Ihnen später im CorpusExplorer angezeigt und das Korpus wird unter diesem Namen in ihren eigenen Dokumenten im Ordner CorpusExplorer > Meine Korpora gespeichert. Nachdem sie den Namen vergeben haben, klicken Sie auf „OK“ und der Annotationsprozess startet.
  • Dieser Vorgang dauert je nach Korpusumfang einige Minuten. Nachdem der Annotationsprozess abgeschlossen wurde, aktualisiert sich die Ansicht des Corpus Explorer.