Die Query-Syntax der CEC

Die Syntax für [QUERY] im CEC ist einfach aber komplex. Es gibt KEINE Verschachtelungen - Wenn Sie etwas verschachteln möchten, dann rufen Sie die CEC mehrfach hintereinander auf. Sie filtern also gefilterte Ergebnisse bis Sie das gewünschte Ergebniss erreicht haben.

Syntax:

[Zeichen 0 - fakultativ] - Ein vorangestelltes ! kehrt den gesamten foglenden Suchausdruck um (NEGATION).
[Zeichen 1 - obligatorisch]:
M - Ein 'M' signalisiert, dass es sich dabei um eine Abfrage auf Metadaten handelt. Gefolgt von [Zeichen 2 - obligatorisch]:
? - Der folgende Suchausdruck ist ein regulärer Ausruck (RegEx).
. - Der folgende Suchausdruck muss im Ergebnis enthalten sein (G/k-Schreibung wird nicht berücksichtigt).
: - Der folgende Suchausdruck muss im Ergebnis enthalten sein (G/k-Schreibung wird berücksichtigt).
- - Der folgende Suchausdruck muss bis auf G/k-Schreibung übereinstimmen.
= - Der folgende Suchausdruck muss inkl. G/k-Schreibung übereinstimmen.
( - Der folgende Suchausdruck muss ganz am Anfang stehen (G/k-Schreibung wird berücksichtigt).
) - Der folgende Suchausdruck muss ganz am Ende stehen (G/k-Schreibung wird berücksichtigt).
! - Die Metaangabe muss leer sein
T - Ein 'T' signalisiert, dass es sich dabei um eine Abfrage im Volltext (Layerbasiert) handelt. Gefolgt von [Zeichen 2 - obligatorisch]:
~ - Mindestens ein Begriff aus der Liste muss im Dokument vorkommen.
- - Alle Begriffe müssen im Dokument vorkommen.
= - Alle Begriffe müssen in mindestens einem Satz vorkommen.
§ - Alle Begriffe müssen mindestens einmal in der vorgegebenen Reihenfolge vorkommen.
? - Erzeugt eine Liste von Begriffen, die auf den gegebenen regulären Ausruck passen. Mindestens einer dieser Begriffe muss im Dokument vorkommen.
1 - Der erste Begriff aus der Liste muss vorkommen und zusätzlich ein beliebiger Begriff aus der Liste.
F - Abfrage mittels regulärem Ausruck im Volltext (ignoriert Satzgrenzen). Achtung: Sehr langsam.
X - Ein 'X' aktiviert die eXtension-Filter - Zusatzfilter mit hoher Komplexität. Gefolgt von [Zeichen 2 - obligatorisch]:
R - erzeugt eine zufällige Auswahl. Anzahl an gewünschten Dokumenten muss angegeben werden. Beispiel: XR::100 - Zufällige Auswahl von 100 Dokumenten
S - Autosplit-Funktionaltität. Gefolgt von Metaanagabe, Trennzeichen :: Datentyp und Einstellung:
TEXT - Wertet jeden Wert als eigenständig aus (keine Einstellungen).
INT - Betrachtet Werte als Ganzzahl. Sortiert die Dokumente aufsteigend nach Wert und teilt diese in Cluster ein. Anzahl von Cluster muss angegeben werden. Beispiel: XSJahr::INT;10 - Sortiert anhand von Jahr (muss eine Ganzzahl sein) und teilt dann in 10 gleich große Cluster auf (Aufteilung erfolgt durch (Max-Min)/10).
FLOAT - Betrachtet Werte als Kommazahl. Funktionalität siehe INT (oben).
DATE - Wert wird als Datumswert behandelt. Dies ist ein spezieller Datentyp, der weit mehr Option bereistellt:
C - aktiviert die Cluster-Funktion (siehe INT) - Beispiel: XSDatum::C;10 - Erzeuge 10-Cluster
CEN - Erzeugt Cluster auf Basis des Jahrhunderts - Beispiel: XSDatum::CEN
DEC - Erzeugt Cluster auf Basis des Jahrzehnts - Beispiel: XSDatum::DEC
Y - Erzeugt Cluster nach Jahren - Beispiel: XSDatum::Y
YM - Erzeugt Cluster nach Jahren/Monaten - Beispiel: XSDatum::YM
YW - Erzeugt Cluster nach Jahren/Wochen - Beispiel: XSDatum::YW
YMD - Erzeugt Cluster nach Jahren/Monaten/Tagen - Beispiel: XSDatum::YMD
YMDH - Erzeugt Cluster nach Jahren/Monaten/Tagen/Stunden - Beispiel: XSDatum::YMDH
YMDHM - Erzeugt Cluster nach Jahren/Monaten/Tagen/Stunden/Minuten - Beispiel: XSDatum::YMDHM
ALL - Erzeugt Cluster für jeden unterschiedlichen Datumstyp (bis auf die Nanosekunde genau)
Zusatzoption: WINDOW
Die Datentypen INT, FLOAT und DATE können mit WINDOW kombiniert werden, um einen gleitenden Durchschnitt zu erhalten.
Bsp.: XSDatum::WINDOW10;DATE;YMD - Erzeugt einen gleitenden Durchschnitt über 10 Tage (YMD)
[Zeichenfolge Zeichen 3 bis Trennzeichen - obligatorisch]:
Für 'M'- und 'XS'-Abfragen (siehe oben) muss die jeweilige Metaangabe angegeben werden - Bsp.: M.Autor oder XSVerlag
Für 'T'-Abfragen (siehe oben) muss der jeweilige Layer angegeben werden - Bsp.: T-Wort oder T1POS
Das obligatorische Trennzeichen :: - Dieses Zeichen trennt die Konfiguration des Suchausdrucks vom Wertebereich
[Nach dem Trennzeichen - Wertebereich - obligatorisch]
Für 'M'-Abfragen muss ein konkreter Wert angegeben werden, der in den Dokumentmetadaten zu finden ist.
Für 'XS'-Abfragen erfordern die Angabe einer Granulierung (WINDOW, Clustergröße oder Zeiteinteilung).
Für 'T'-Abfragen können ein oder mehrere Suchworte angegeben werden. Diese müssen mittels ;-Semikolon getrennt werden. Leerzeichen sind nicht zulässig.

Beispiele:

!M:Author::Jan - Wähle alle Dokumente, deren Autor nicht Jan enthält
T§Wort::OpenSource;Software - Wähle alle Dokumente, die die Phrase "OpenSource Software" enthalten
XR::100 - Wähle zufällig 100 Dokumente
XSAuthor::TEXT - Erzeuge für jeden Autor eine eigene Auswahl
XSYear::INT;10 - Sortiere alle Dokumente nach Year, nehme dabei an Year sei eine Ganzzahl, Teile dann den Zeitstrahl in 10 gleichgroße Bereiche (MAX-MIN)/10
XSDate::DATE;YMD - Erzeuge für jeden Tag ein Cluster (Jahr-Monat-Tag)
XSDate::WINDOW7;DATE;YMD - Erzeuge für jeden Tag ein Cluster (Jahr-Monat-Tag), sortiere dann die Cluster aufsteigend und fasse immer sieben Cluster zusammen (gleitender Durchschnitt).