Versionsarchiv
Logik der Versionsnummern
Versionsnummern nach dem „alten System“ (bis 2023)
Die Versionsnummern wie amc_4.3 sind wie folgt zu interpretieren:
Die Ziffer vor dem Dezimalpunkt bezeichnet die Version der Annotionen. Im Laufe der Zeit wurden bei den Annotationsverfahren Ergänzungen und Verbesserungen vorgenommen. Versionen mit identischer erster Ziffer – also z.B. alle amc_4.xxx – wurden mit den identischen Annotationstools erstellt. Sie sind also, was die Annotationen angeht untereinander zu 100% kompatibel.
Die zweite Ziffernfolge markiert die zeitliche und somit quantitative Entwicklung des Korpus. Das amc wurde jeweils im Jänner um die frischen Texte des abgelaufenen Jahres erweitert, und es wurde die Versionsnummer nach dem Dezimalpunkt erhöht. D.h. auf amc_4.2 folgte amc_4.3. Letzteres ist ident mit amc_4.2 aber enthält zusätzlich noch die Daten eines weiteren Kalenderjahres.
Versionsnummern nach dem „neuen System“ (seit 2024)
Seit dem Jahr 2024 wurden die „Update-Zyklen“ des amc drastisch verkürzt. Die Textbasis wird nicht mehr bloß 1 x pro Jahr aktualisiert sondern nunmehr 1 x pro Quartal. Um die Übersichtlichkeit und die Aussagekraft der Versionsnummern zu erhöhen wurde das Benennungsschema verändert: Weiterhin signalisiert die erste Ziffer den Annotationsstand und die zweite Ziffer den „Zeitschnitt“. Nur wird jetzt die zeitliche Komponente explizit benannt: es werden Jahr und Quartalsnummer angegeben. Das erste Update nach amc_4.3 heißt daher nicht mehr amc_4.4. Da es nun Texte bis inklusive Quartal 1 / 2024 enthält lautet die Bezeichnung nunmehr amc_4.24q1.
Vorhaltung alter Versionen
Mit den kürzeren Updatezyklen wird es also ab nun 4 neue Versionsschritte pro Jahr geben. Wir können derzeit nicht garantieren, dass wir all diese Versionen mit vergleichsweise geringfügigen Änderungsschritten „ewig“ in der NoSke vorhalten. Es ist aber geplant, zumindest einmal jählich eine long term supported (LTS) Version bereitzustellen. Für diese wird die Langzeitverfügbarkeit auf Dauer gewährleistet sein. Als LTS sind diejenigen Versionen vorgesehen, die das Quartal 4 – also ein abgeschlossenes Jahr – enthalten, und diese Versionen werden auch mit dem Namenszusatz LTS
versehen sein.
Die erste LTS Version nach diesem Namensschema wird also den Namen amc_4.24q4LTS
erhalten.
Oder umgekehrt: die bisherigen Versionen amc_4.2 und 4.3 würden nach dem neuen Namensschema die Nummer 4.22q4LTS bzw. 4.23q4LTS tragen.
Archiv
Archivierte quantitative Informationen zu älteren Versionen
Version | Periode | Details |
---|---|---|
amc_4.24q2 | bis incl. 06/2024 | siehe unten |
amc_4.24q1 | bis incl. 03/2024 | siehe unten |
amc_4.3 | bis incl. 12/2023 | siehe unten |
amc_4.2 | bis incl. 12/2022 | siehe unten |
amc_4.1 | bis incl. 12/2021 | siehe unten |
amc_3.2 | bis incl. 12/2020 | siehe unten |
amc_3.1 | bis incl. 12/2018 | siehe unten |
amc_4.24q2
(bis incl. 2024 Quartal 2 – also bis 2024-06-31)
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 12.577.332.053 |
Wörter | 9.537.143.055 |
Sätze | 1.045.596.054 |
Dokumente | 50.813.279 |
amc_4.24q1
(bis incl. 2024 Quartal 1 – also bis 2024-03-31)
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 12.487.315.613 |
Words | 9.466.712.738 |
Sentences | 1.038.318.869 |
Documents | 50.491.712 |
amc_4.3
(bis incl 2023-12)
Für eine Beschreibung aller hier genannten Attribute und Strukturen vgl. die Annotationsdetails Für den Umgang mit Trefferzahlen aus Ihren Recherchen **beachten Sie unbedingt die Hinweise zum Thema **Normalisierung.
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 12.402.137.100 |
Words | 9.399.509.602 |
Sentences | 1.031.383.187 |
Documents | 50.177.372 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.
Verteilung der Artikel auf Medientypen
doc.mediatype | Artikelanzahl |
---|---|
40.577.867 | |
agentur | 8.664.575 |
tv | 914.899 |
radio | 20.031 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails
doc.region | Artikelanzahl |
---|---|
agesamt | 26.612.219 |
amitte | 3.527.856 |
awest | 4.548.043 |
aost | 8.823.473 |
asuedost | 5.035.394 |
spezifisch | 1.630.387 |
amc_4.2
(bis incl. 12/2022)
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 12.032.705.217 |
Words | 9.112.182.470 |
Sentences | 1.000.638.839 |
Documents | 48.752.417 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.
Verteilung der Artikel auf Medientypen
doc.mediatype | Artikelanzahl |
---|---|
agentur | 8.479.112 |
39.386.468 | |
tv | 886.837 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails
doc.region | Artikelanzahl |
---|---|
agesamt | 25.877.137 |
aost | 8.590.547 |
asuedost | 4.864.031 |
awest | 4.417.523 |
amitte | 3.404.579 |
spezifisch | 1.598.600 |
amc_4.1
(bis incl. 12/2021)
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 11.636.520.111 |
Words | 8.806.223.211 |
Sentences | 966.699.616 |
Documents | 47.209.529 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.
Verteilung der Artikel auf Medientypen
doc.mediatype | Artikelanzahl |
---|---|
agentur | 8.271.731 |
38.092.894 | |
tv | 844.904 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails
doc.region | Artikelanzahl |
---|---|
agesamt | 25.113.786 |
aost | 8.314.145 |
asuedost | 4.700.107 |
awest | 4.278.950 |
amitte | 3.276.335 |
spezifisch | 1.526.206 |
amc_3.2
(enthält Veröffentlichungen bis 2020-12-31)
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 11.336.903.860 |
Words | 8.499.041.636 |
Sentences | 1.244.814.212 |
Documents | 45.607.516 |
“Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute
Lexicon sizes | |
---|---|
dep | 101 |
iob | 3 |
ix | 100.700 |
ixDEP | 82.140 |
ixNP | 697 |
lc | 39.566.426 |
lemma | 35.621.298 |
lemmaSP | 89.712 |
lemmasource | 386 |
lemmasp_ignore | 39.566.580 |
lempos | 37.814.755 |
neg | 2 |
ner | 4 |
pos | 829 |
posTI | 54 |
posTT | 54 |
posUDS | 16 |
posbase | 22 |
posx | 9 |
word | 42.471.363 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.
Verteilung der Artikel auf Medientypen
doc.mediatype | freq |
---|---|
agentur | 8.021.738 |
36.787.218 | |
tv | 798.560 |
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails
doc.region | freq |
---|---|
agesamt | 24.284.411 |
aost | 8.053.050 |
asuedost | 4.538.539 |
amitte | 3.149.063 |
awest | 4.135.048 |
spezifisch | 1.447.405 |
amc_3.1
(enthält Veröffentlichungen bis 2018-12-31)
Anzahl der Token, Words, etc.
Counts | |
---|---|
Tokens | 10.500.118.851 |
Words | 7.859.278.624 |
Sentences | 1.154.897.537 |
Paragraphs | 317.301.865 |
Documents | 42.240.787 |
“Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute
Lexicon sizes | |
---|---|
word | 40228241 |
posUDS | 16 |
posTI | 54 |
ner | 4 |
iob | 3 |
ixNP | 697 |
dep | 101 |
ixDEP | 82140 |
neg | 2 |
lemmaSP | 89338 |
pos | 829 |
posTT | 54 |
lempos | 35747610 |
lemmasource | 379 |
posx | 9 |
lc | 37490559 |
lemma_lc | 31456634 |
posbase | 22 |
lemma | 33705532 |
Verteilung der Artikel über die Zeit
Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.
Verteilung der Artikel auf Medientypen
Verteilung der Artikel auf „Regionen“
Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails
doc.region | freq |
---|---|
agesamt | 2.2615.668 |
aost | 7.407.513 |
asuedost | 4.205.373 |
amitte | 2.902.499 |
awest | 3.827.237 |
spezifisch | 1.282.497 |