×
Menü
Index

WET-Format http://commoncrawl.org (*.warc.wet)|*.warc.wet

CommonCrawl.org ist eine gemeinnützige Organisation, die öffentliche WebCrawls durchführt und bereitstellt. siehe: http://commoncrawl.org/the-data/get-started/ Die Webseite stellt mehrere Formate bereit. Aktuell wird das bereits bereinigte WET-Format unterstützt. Beim Einlesen der WET-Dateien können Top-Level-Domain- und/oder Text-Sprach-Filter aktiviert werden.
 
Top-Level-Domain-Filter
Erlaubt es, nur bestimmte TLD zuzulassen, z. B.: .de, .ch, .com, .org
 
Text-Sprach-Filter
Mittels NTextCat kann die Sprache (aus über 280 Sprachen) eines Dokuments automatisch ermitteln. Dieser Filter benötigt leider recht lange, daher sollte er zusammen mit dem TLD-Filter genutzt werden. Bsp.: Sie wollen ein deutschsprachiges Korpus erstellen, dann wählen Sie Deutsch und als TLD: .de, .ch, .au