Die Query-Syntax der CEC

Die Syntax für [QUERY] im CEC ist einfach aber komplex. Es gibt KEINE Verschachtelungen - Wenn Sie etwas verschachteln möchten, dann rufen Sie die CEC mehrfach hintereinander auf. Sie filtern also gefilterte Ergebnisse bis Sie das gewünschte Ergebniss erreicht haben.
 
Syntax:
  • [Zeichen 0 - fakultativ] - Ein vorangestelltes ! kehrt den gesamten foglenden Suchausdruck um (NEGATION).
  • [Zeichen 1 - obligatorisch]:
  • M - Ein 'M' signalisiert, dass es sich dabei um eine Abfrage auf Metadaten handelt. Gefolgt von [Zeichen 2 - obligatorisch]:
  • ? - Der folgende Suchausdruck ist ein regulärer Ausruck (RegEx).
  • . - Der folgende Suchausdruck muss im Ergebnis enthalten sein (G/k-Schreibung wird nicht berücksichtigt).
  • : - Der folgende Suchausdruck muss im Ergebnis enthalten sein (G/k-Schreibung wird berücksichtigt).
  • - - Der folgende Suchausdruck muss bis auf G/k-Schreibung übereinstimmen.
  • = - Der folgende Suchausdruck muss inkl. G/k-Schreibung übereinstimmen.
  • ( - Der folgende Suchausdruck muss ganz am Anfang stehen (G/k-Schreibung wird berücksichtigt).
  • ) - Der folgende Suchausdruck muss ganz am Ende stehen (G/k-Schreibung wird berücksichtigt).
  • ! - Die Metaangabe muss leer sein
  • T - Ein 'T' signalisiert, dass es sich dabei um eine Abfrage im Volltext (Layerbasiert) handelt. Gefolgt von [Zeichen 2 - obligatorisch]:
  • ~ - Mindestens ein Begriff aus der Liste muss im Dokument vorkommen.
  •  - - Alle Begriffe müssen im Dokument vorkommen.
  • = - Alle Begriffe müssen in mindestens einem Satz vorkommen.
  • § - Alle Begriffe müssen mindestens einmal in der vorgegebenen Reihenfolge vorkommen.
  • ? - Erzeugt eine Liste von Begriffen, die auf den gegebenen regulären Ausruck passen. Mindestens einer dieser Begriffe muss im Dokument vorkommen.
  • 1 - Der erste Begriff aus der Liste muss vorkommen und zusätzlich ein beliebiger Begriff aus der Liste.
  • F - Abfrage mittels regulärem Ausruck im Volltext (ignoriert Satzgrenzen). Achtung: Sehr langsam.
  • X - Ein 'X' aktiviert die eXtension-Filter - Zusatzfilter mit hoher Komplexität. Gefolgt von [Zeichen 2 - obligatorisch]:
  • R - erzeugt eine zufällige Auswahl. Anzahl an gewünschten Dokumenten muss angegeben werden. Beispiel: XR::100 - Zufällige Auswahl von 100 Dokumenten
  • S - Autosplit-Funktionaltität. Gefolgt von Metaanagabe, Trennzeichen :: Datentyp und Einstellung:
  • TEXT - Wertet jeden Wert als eigenständig aus (keine Einstellungen).
  • INT - Betrachtet Werte als Ganzzahl. Sortiert die Dokumente aufsteigend nach Wert und teilt diese in Cluster ein. Anzahl von Cluster muss angegeben werden. Beispiel: XSJahr::INT;10 - Sortiert anhand von Jahr (muss eine Ganzzahl sein) und teilt dann in 10 gleich große Cluster auf (Aufteilung erfolgt durch (Max-Min)/10).
  • FLOAT - Betrachtet Werte als Kommazahl. Funktionalität siehe INT (oben).
  • DATE - Wert wird als Datumswert behandelt. Dies ist ein spezieller Datentyp, der weit mehr Option bereistellt:
  • C - aktiviert die Cluster-Funktion (siehe INT) - Beispiel: XSDatum::C;10 - Erzeuge 10-Cluster
  • CEN - Erzeugt Cluster auf Basis des Jahrhunderts - Beispiel: XSDatum::CEN
  • DEC - Erzeugt Cluster auf Basis des Jahrzehnts - Beispiel: XSDatum::DEC
  • Y - Erzeugt Cluster nach Jahren - Beispiel: XSDatum::Y
  • YM - Erzeugt Cluster nach Jahren/Monaten - Beispiel: XSDatum::YM
  • YW - Erzeugt Cluster nach Jahren/Wochen - Beispiel: XSDatum::YW
  • YMD - Erzeugt Cluster nach Jahren/Monaten/Tagen - Beispiel: XSDatum::YMD
  • YMDH - Erzeugt Cluster nach Jahren/Monaten/Tagen/Stunden - Beispiel: XSDatum::YMDH
  • YMDHM - Erzeugt Cluster nach Jahren/Monaten/Tagen/Stunden/Minuten - Beispiel: XSDatum::YMDHM
  • ALL - Erzeugt Cluster für jeden unterschiedlichen Datumstyp (bis auf die Nanosekunde genau)
  • Zusatzoption: WINDOW
    Die Datentypen INT, FLOAT und DATE können mit WINDOW kombiniert werden, um einen gleitenden Durchschnitt zu erhalten.
    Bsp.: XSDatum::WINDOW10;DATE;YMD - Erzeugt einen gleitenden Durchschnitt über 10 Tage (YMD)
  • [Zeichenfolge Zeichen 3 bis Trennzeichen - obligatorisch]:
  • Für 'M'- und 'XS'-Abfragen (siehe oben) muss die jeweilige Metaangabe angegeben werden - Bsp.: M.Autor oder XSVerlag
  • Für 'T'-Abfragen (siehe oben) muss der jeweilige Layer angegeben werden - Bsp.: T-Wort oder T1POS
  • Das obligatorische Trennzeichen :: - Dieses Zeichen trennt die Konfiguration des Suchausdrucks vom Wertebereich
  • [Nach dem Trennzeichen - Wertebereich - obligatorisch]
  • Für 'M'-Abfragen muss ein konkreter Wert angegeben werden, der in den Dokumentmetadaten zu finden ist.
  • Für 'XS'-Abfragen erfordern die Angabe einer Granulierung (WINDOW, Clustergröße oder Zeiteinteilung).
  • Für 'T'-Abfragen können ein oder mehrere Suchworte angegeben werden. Diese müssen mittels ;-Semikolon getrennt werden. Leerzeichen sind nicht zulässig.
 
Beispiele:
  • !M:Author::Jan - Wähle alle Dokumente, deren Autor nicht Jan enthält
  • T§Wort::OpenSource;Software - Wähle alle Dokumente, die die Phrase "OpenSource Software" enthalten
  • XR::100 - Wähle zufällig 100 Dokumente
  • XSAuthor::TEXT - Erzeuge für jeden Autor eine eigene Auswahl
  • XSYear::INT;10 - Sortiere alle Dokumente nach Year, nehme dabei an Year sei eine Ganzzahl, Teile dann den Zeitstrahl in 10 gleichgroße Bereiche (MAX-MIN)/10
  • XSDate::DATE;YMD - Erzeuge für jeden Tag ein Cluster (Jahr-Monat-Tag)
  • XSDate::WINDOW7;DATE;YMD - Erzeuge für jeden Tag ein Cluster (Jahr-Monat-Tag), sortiere dann die Cluster aufsteigend und fasse immer sieben Cluster zusammen (gleitender Durchschnitt).