Das EuroParl-Korpus

  • Rufen Sie folgende Webseite in ihrem Browser auf: http://www.statmt.org/europarl/ Hier finden Sie einige Informationen zum EuroParl Korpus. Aktuell ist die Version 7.
  • Klicken Sie auf Downloads: „Source Releases“.
  • Entpacken Sie die heruntergeladene Datei.
  • Im Unterordner TXT finden Sie die verschiedenen Sprachversionen des EuroParl-Korpus.
  • Im gesamten weiteren Verlauf dieses Webcast werden wir ausschließlich die Dateien aus dem Ordner DE verwenden. Sie können aber auch jede andere Sprachversion nutzen.
  • Öffnen Sie im Ordner eine der EP-Dateien. Diese werden Ihnen als Plaintext angezeigt. D. h. es gibt keine Textformatierungen. Innerhalb des Fließtexts sind verschiedene Marker hinterlegt. Zum Beispiel die ChapterID oder der Name des jeweiligen Speakers. Diese Marker werden später vom CorpusExplorer dazu verwendet, um Metadaten zu erzeugen. Ein Beispiel: Im CorpusExplorer können Sie später abfragen, wer?… wann zu welchem Thema einen Redebeitrag im euro-päischen Parlament gehalten hat.
  • Sie können nun das Dokument schließen und den CorpusExplorer starten. Im nächsten Video erfahren Sie, wie Sie das Korpus in den CorpusExplorer einlesen und annotieren.