Wichtige Grundbegriffe

  • Starten Sie den CorpusExplorer und laden Sie das EuroParl-Korpus.
  • Wie Sie auf den ersten Blick sehen, enthält dieses Korpus über 200‘000
  • Texte in drei Layern mit über 54 Millionen Token.
  • Aktuell befinden Sie sich auf der Korpus-Übersichts-Seite. Klicken Sie im Programm-Menü auf das Korpus-Symbol. Sie sehen, dass die Funktionen, die Sie auf der aktuellen Seite sehen, auch über das Programmenü verfügbar sind.
  • Klicken Sie auf das Haus-Symbol, um zum Startbildschirm zurück zu gelangen. Sobald ein Korpus geladen wurde, sind alle Kriterien der Checkliste für eine erfolgreiche Analyse erfüllt.
  • Sie sehen aber auch, dass zwischen den Korpora und den Analysen die Schnappschüsse stehen. Wenn Sie den CorpusExplorer erstmalig ausprobieren, brauchen Sie sich um Schnappschüsse keine Gedanken machen. Sobald ein Korpus geladen wurde, erstellt der CorpusExplorer automatisch einen Schnappschuss, der das gesamte Korpus umfasst. Die wesentlichen drei Funktionen von Schnappschüssen sind Reduktion, Kombination und Isolation. Reduktion: Nutzen Sie Schnappschüsse, um Korpora zu filtern. Rekombination: Schnappschüsse können untereinander kombiniert werden. Isolation: Schnappschüsse isolieren Analysen und Korpora voneinander – dadurch werden Analysen reproduzierbar, selbst wenn Sie neues Korpusmaterial hinzufügen. Wir werden in einem späteren Video auf die vielfältigen Funktionen von Schnappschüssen detailliert eingehen, insbesondere weil Sie eine wichtige Rolle in der korpushermeneutischen Analyse spielen.
  • Klicken Sie auf „Neue Analyse starten“ > „Volltextzugriff“ > „Text annotieren“. Wie Sie im Programm-Menü sehen, gelangen Sie auch hierüber zu dieser Analyse.
  • Abschließend wollen wir uns noch ansehen, was es mit den Layern auf sich hat. Sie erinnern sich? Das gerade geladene EuroParl-Korpus hat 54 Mio. Token und drei Layer. Layer sind abhängig vom Annotations-/Import-Prozess. Wenn Sie z. B. den TreeTagger nutzen, dann erstellt dieser mindestens drei Layer: Wort, Lemma, POS.
  • Diese Daten splittet der CorpusExplorer automatisch auf und macht Sie unabhängig voneinander verfügbar. Hier rechts sehen Sie die verfügbaren Layer für dieses gerade angezeigte Dokument. Klicken Sie auf den Layer > POS.
  • Es klappt eine Liste mit allen verfügbaren Layerwerten aus. In diesem Fall sind es Part-of-Speech-Informationen als Wortarten oder kurz POS. Setzen Sie einen Haken vor den Eintrag NN. Dadurch werden alle Begriffe farblich hervorgehoben, die mit diesem Wert annotiert wurden.
  • Welche Layer und welche Layerwerte vorhanden sind, ist wie bereits erwähnt abhängig vom Annotations-Import-Prozess. Da das EuroParl-Korpus mit dem TreeTagger aufbereitet wurde, steht NN für ein „Normales Nomen“ – entsprechend dem Stuttgart-Tübingen-Tagset, das der TreeTagger von Helmut Schmid verwendet.
  • Der zuletzt ausgewählte Layerwert kann in dieser Ansicht zur Annotation verwendet werden. Damit können Sie
  • z. B. bei Bedarf die automatische Annotation korrigieren. Außerdem können Sie eigene Layerwerte (Rechtsklick auf Layer) oder ganze Layer hinzufügen.
  • Im nächsten Video erfahren Sie, wie Sie die Layer POS, Lemma und Wort auswerten können.