×
Menü
Index

Add-on: Apache Tika

Diese Erweiterung bindet Apache Tika in den CorpusExplorer ein. Mittels Tika ist es möglich, aus fast jedem Dateiformat Text/Metadaten zu extrahieren. Wenn Sie diese Erweiterung installieren, können Sie unter Dokumente annotieren den Dateityp: Auf gut Glück (Apache Tika) wählen und somit fast alle Dateien als Textquellen anwählen. Hinweis: Diese Erweiterung arbeitet, wie angemerkt, auf gut Glück - spezifischere Dateitypen stellen sicher, dass das Maximum an Informationen aus der Datei extrahiert wird. Apache Tika wurde ursprünglich in Java geschrieben. Dank Kevin Miller gibt es aber eine sehr gute Portierung für C#/.NET namens TikaDotNet. Die ich anstelle der Originalversion im CorpusExplorer verwende - Paketgröße ca. 100 MB

[Download]