WebCrawler erstellen

WebCrawler erstellen
 
Der WebCrawler bietet einen Einsteiger- und einen Experten-Modus. Der Einsteigermodus führt Sie Schritt-für-Schritt durch die Konfiguration. Am Ende sehen Sie den oben gezeigten Bildschirm. Der Expertenmodus führt Sie direkt zum oben gezeigten Bildschirm - sie müssen alles manuell ausfüllen.
 
 
1

Namen vergeben

1. Namen vergeben
Geben Sie dem Crawler einen Namen damit Sie ihn später unter einer vielzahl von Crawler wiederfinden.
2

URL sowie URL-Parameter

2. URL sowie URL-Parameter
Die URL der Suche muss HTTP-GET-Kompatibel sein. D.h. die Abfrage muss in der URL-Zeile lesbar sein.
Ersetzen Sie die Abfrage durch [QUERY] und den Seitenzähler für die Ergebnisseite durch [PAGE]. Beides sind Platzhalter und müssen genaus geschrieben werden!
3

Startindex / Inkrement

3. Startindex / Inkrement
Ermitteln Sie bei welchem Index die Seitensuche startet. Die meisten (ca. 80%) aller Suchen starten mit 1.
Ermitteln Sie dann um welchen Wert sich der Index, beim Aufruf der nächsten Seite, erhöht. Die meisten Seiten verwenden auch hier 1.
4

Suchergebnisse

4. Suchergebnisse
XPath-Ausdruck der den Link (A-Tag) für das Suchergebnis liefert.
5

href Prefix

5. href Prefix
Handelt es sich beim href-Parameter um eine relative URL so können Sie hier ein beliebiges Präfix eingeben.
6

Begrenzung Seitenbereich

6. Begrenzung Seitenbereich
Einige Seiten geben in der Suche mehrere Unterbereiche aus. Hier können Sie einen URL-Bereich angeben der auf keinen Fall durchsucht werden soll. Z. B. bei Zeitungen - wenn eine Paywall existiert - Paywallseiten können nicht durchsucht werden, daher ist hier eine Sperre notwendig.
7

Key / XPath

7. Key / XPath
Als Key können Sie eine beliebige Metaangabe eingeben.
Hinweis: Es muss eine Angabe (Key) "Text" exsistieren. Nur so kann der Crawler den Text von den anderen Keys/Metaangabe unterscheiden. Vergeben Sie Titel, wird dieser automatisch als Dokumentennamen vergeben.
Wichtig: Ein Key und ein XPath dürfen nur einmal genutzt werden.
8

OK

8. OK
Speichert den Crawler.