Zum Hauptinhalt springen

Versionsarchiv

Logik der Versionsnummern

Versionsnummern nach dem „alten System“ (bis 2023)

Die Versionsnummern wie amc_4.3 sind wie folgt zu interpretieren:

Die Ziffer vor dem Dezimalpunkt bezeichnet die Version der Annotionen. Im Laufe der Zeit wurden bei den Annotationsverfahren Ergänzungen und Verbesserungen vorgenommen. Versionen mit identischer erster Ziffer – also z.B. alle amc_4.xxx – wurden mit den identischen Annotationstools erstellt. Sie sind also, was die Annotationen angeht untereinander zu 100% kompatibel.

Die zweite Ziffernfolge markiert die zeitliche und somit quantitative Entwicklung des Korpus. Das amc wurde jeweils im Jänner um die frischen Texte des abgelaufenen Jahres erweitert, und es wurde die Versionsnummer nach dem Dezimalpunkt erhöht. D.h. auf amc_4.2 folgte amc_4.3. Letzteres ist ident mit amc_4.2 aber enthält zusätzlich noch die Daten eines weiteren Kalenderjahres.

Versionsnummern nach dem „neuen System“ (seit 2024)

Seit dem Jahr 2024 wurden die „Update-Zyklen“ des amc drastisch verkürzt. Die Textbasis wird nicht mehr bloß 1 x pro Jahr aktualisiert sondern nunmehr 1 x pro Quartal. Um die Übersichtlichkeit und die Aussagekraft der Versionsnummern zu erhöhen wurde das Benennungsschema verändert: Weiterhin signalisiert die erste Ziffer den Annotationsstand und die zweite Ziffer den „Zeitschnitt“. Nur wird jetzt die zeitliche Komponente explizit benannt: es werden Jahr und Quartalsnummer angegeben. Das erste Update nach amc_4.3 heißt daher nicht mehr amc_4.4. Da es nun Texte bis inklusive Quartal 1 / 2024 enthält lautet die Bezeichnung nunmehr amc_4.24q1.

Vorhaltung alter Versionen

Mit den kürzeren Updatezyklen wird es also ab nun 4 neue Versionsschritte pro Jahr geben. Wir können derzeit nicht garantieren, dass wir all diese Versionen mit vergleichsweise geringfügigen Änderungsschritten „ewig“ in der NoSke vorhalten. Es ist aber geplant, zumindest einmal jählich eine long term supported (LTS) Version bereitzustellen. Für diese wird die Langzeitverfügbarkeit auf Dauer gewährleistet sein. Als LTS sind diejenigen Versionen vorgesehen, die das Quartal 4 – also ein abgeschlossenes Jahr – enthalten, und diese Versionen werden auch mit dem Namenszusatz LTS versehen sein.

Die erste LTS Version nach diesem Namensschema wird also den Namen amc_4.24q4LTS erhalten.

Oder umgekehrt: die bisherigen Versionen amc_4.2 und 4.3 würden nach dem neuen Namensschema die Nummer 4.22q4LTS bzw. 4.23q4LTS tragen.

Archiv

Archivierte quantitative Informationen zu älteren Versionen

VersionPeriodeDetails
amc_4.24q2bis incl. 06/2024siehe unten
amc_4.24q1bis incl. 03/2024siehe unten
amc_4.3bis incl. 12/2023siehe unten
amc_4.2bis incl. 12/2022siehe unten
amc_4.1bis incl. 12/2021siehe unten
amc_3.2bis incl. 12/2020siehe unten
amc_3.1bis incl. 12/2018siehe unten

amc_4.24q2

(bis incl. 2024 Quartal 2 – also bis 2024-06-31)

Anzahl der Token, Words, etc.

Counts
Tokens12.577.332.053
Wörter9.537.143.055
Sätze1.045.596.054
Dokumente50.813.279

amc_4.24q1

(bis incl. 2024 Quartal 1 – also bis 2024-03-31)

Anzahl der Token, Words, etc.

Counts
Tokens12.487.315.613
Words9.466.712.738
Sentences1.038.318.869
Documents50.491.712

amc_4.3

(bis incl 2023-12)

Für eine Beschreibung aller hier genannten Attribute und Strukturen vgl. die Annotationsdetails Für den Umgang mit Trefferzahlen aus Ihren Recherchen **beachten Sie unbedingt die Hinweise zum Thema **Normalisierung.

Anzahl der Token, Words, etc.

Counts
Tokens12.402.137.100
Words9.399.509.602
Sentences1.031.383.187
Documents50.177.372

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatypeArtikelanzahl
print40.577.867
agentur8.664.575
tv914.899
radio20.031

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

doc.regionArtikelanzahl
agesamt26.612.219
amitte3.527.856
awest4.548.043
aost8.823.473
asuedost5.035.394
spezifisch1.630.387

amc_4.2

(bis incl. 12/2022)

Anzahl der Token, Words, etc.

Counts
Tokens12.032.705.217
Words9.112.182.470
Sentences1.000.638.839
Documents48.752.417

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatypeArtikelanzahl
agentur8.479.112
print39.386.468
tv886.837

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

doc.regionArtikelanzahl
agesamt25.877.137
aost8.590.547
asuedost4.864.031
awest4.417.523
amitte3.404.579
spezifisch1.598.600

amc_4.1

(bis incl. 12/2021)

Anzahl der Token, Words, etc.

Counts
Tokens11.636.520.111
Words8.806.223.211
Sentences966.699.616
Documents47.209.529

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatypeArtikelanzahl
agentur8.271.731
print38.092.894
tv844.904

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

doc.regionArtikelanzahl
agesamt25.113.786
aost8.314.145
asuedost4.700.107
awest4.278.950
amitte3.276.335
spezifisch1.526.206

amc_3.2

(enthält Veröffentlichungen bis 2020-12-31)

Anzahl der Token, Words, etc.

Counts
Tokens11.336.903.860
Words8.499.041.636
Sentences1.244.814.212
Documents45.607.516

“Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

Lexicon sizes
dep101
iob3
ix100.700
ixDEP82.140
ixNP697
lc39.566.426
lemma35.621.298
lemmaSP89.712
lemmasource386
lemmasp_ignore39.566.580
lempos37.814.755
neg2
ner4
pos829
posTI54
posTT54
posUDS16
posbase22
posx9
word42.471.363

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

doc.mediatypefreq
agentur8.021.738
print36.787.218
tv798.560

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

doc.regionfreq
agesamt24.284.411
aost8.053.050
asuedost4.538.539
amitte3.149.063
awest4.135.048
spezifisch1.447.405

amc_3.1

(enthält Veröffentlichungen bis 2018-12-31)

Anzahl der Token, Words, etc.

Counts
Tokens10.500.118.851
Words7.859.278.624
Sentences1.154.897.537
Paragraphs317.301.865
Documents42.240.787

“Lexicon Sizes“ ( d.h. Anzahl der Typen) aller Token-Attribute

Lexicon sizes
word40228241
posUDS16
posTI54
ner4
iob3
ixNP697
dep101
ixDEP82140
neg2
lemmaSP89338
pos829
posTT54
lempos35747610
lemmasource379
posx9
lc37490559
lemma_lc31456634
posbase22
lemma33705532

Verteilung der Artikel über die Zeit

Die Verteilung der Artikel über die Zeit ist offensichtlich unregelmäßig. Die anfangs monoton steigende Zahl der Artikel pro Jahr kann durch die „Sammlungslogik“ der APA erklärt werden: die Anzahl der in der Datenbank aufgenommenen Medien steigt im Laufe der Jahre sukzessive. In den Anfangsjahren sind nur Artikel der APA selbst vertreten, im Laufe der 1990er Jahre kommen nach und nach neue Medien hinzu.

Verteilung der Artikel auf Medientypen

Verteilung der Artikel auf „Regionen“

Nähere Erläuterungen zur Regioneneinteilung finden sich in den Annotationsdetails

doc.regionfreq
agesamt2.2615.668
aost7.407.513
asuedost4.205.373
amitte2.902.499
awest3.827.237
spezifisch1.282.497