×
Menü
Index

CorpusExplorer (*.cec6)

Importieren Sie z. B. heruntergeladene CEC6-Korpora. CEC6 ist das Standardformat des CorpusExplorer v2.0.
 
Einschränkungen für CEC6 (formatbedingt)
(Wenn im Folgenden 2 Mrd. genannt wird, dann entspricht dies exakt 2'147'483'647)
 
 
Max. Summe: 18'446'744'073 Mrd. (Dokumente pro Korpus) *  2 Mrd. (Sätze) * 2 Mrd. (Token pro Satz) = 73 Trilliarden Token
 
Einschränkungen für CEC6 (reale Bedingungen)
Das CEC6-Format wird vollständig in den Arbeitsspeicher (RAM) des PCs geladen. Daher ist die tatsächliche Korpusgröße hauptsächlich durch die Größe des frei verfügbaren Arbeitsspeichers begrenzt. Es gilt die Faustregel: pro 1 GB freier Arbeitsspeicher können bis zu 30 Mio. Token geladen werden (hierbei müssen alle Layer zusammengezählt werden - z. B. bei 3 Layern = 10 Mio. Token pro Layer). Berücksichtigen Sie, dass ca. 1-2 GB zusätzlicher Arbeitsspeicher frei bleiben, um Berechnungen durchführen zu können.
 
Bsp. für einen aktuellen Rechner: Windows 10 - 64-Bit Quad-Core-Prozessor mit 16 GB RAM