Metadaten
Das KED wurde mit Metadaten versehen und nach verschiedenen Kriterien annotiert. Unter Metadaten werden Angaben über die Eigenschaften der Texte im KED verstanden. Hierzu gehören beispielsweise die Adressatengruppe, für die ein Text intendiert ist, oder die Quelle, aus der ein Text entnommen ist. In der KED-Suche können Texte nach didaktisch relevanten Eigenschaften ausgewählt und durchsucht werden. Über die KorAP-Plattform des IDS können alle Metadaten für eine gezielte Suche in bestimmten Texten genutzt werden.
Metadaten im KED
Parameter / Metadatum | Werte |
---|---|
Adressaten [rcpnt] |
|
Vertextungsstrategie [stratgy] |
|
Textsorte [type] |
|
Quelle [source] / Kürzel |
|
Thema [topic] |
|
Art der Urheberrechte [crt] |
|
Art der Verlinkung [link] |
|
Datum der Aufnahme ins Korpus [date] | Datumswerte |
Link zum Volltext [permalink] | URL des Textes im Archiv oder am Originalfundort |
Titel [title] | Der jeweilige Titel der einzelnen Texte im KED |
Textdeckung [cover1kherder] – [cover5kherder] | Anteil der Textdeckung der häufigsten 1000, 2000, 3000, 4000 und 5000 Wörter des Deutschen (nach der Herder-Liste) |
Anzahl der Absätze pro Text [npara] | Natürliche Zahl |
Anzahl der Sätze pro Text [nsent] | Natürliche Zahl |
Anzahl der laufenden Wörter pro Text [ntoks] | Naturliche Zahl |
Mittlere Satzlänge (Median) [ntokssentmd] | Dezimalzahl |
Anzahl der Satzzeichen pro 1000 Tokens [npunct1ks] | Dezimalzahl |
Adressaten [rcpnt]
Die intendierte Adressatengruppe ist in der Regel aus den Angaben der Quellwebseite eines Textes erschließbar. Beispielsweise richten sich die Webseiten „Kids&Science“ und „Recht Kinderleicht“ an Kinder. Andere Quellen richten sich erkennbar an eine erwachsene Leserschaft, etwa die Webseiten der „Apotheken-Umschau“ und des „Bundeszentrums für Ernährung“.
Textsorte [type] und Vertextungsstrategie [stratgy]
Zur Kennzeichnung der Textsortenzugehörigkeit und der Vertextungsstrategie haben wir versucht, möglichst intuitiv verständliche und alltagssprachlich verwendete Begrifflichkeiten zu nutzen. Für die Einteilung werden möglichst intuitiv verständliche, alltagssprachliche Begriffe verwendet. Unterschieden werden die Textsorten „Argumentation“, „Empfehlung“, „Erklärtext“, „Experiment“, „Lexikoneintrag“ und „Nachricht“ sowie die Vertextungsstrategien „Anweisen“, „Argumentieren“, „Berichten“ und „Erklären“.
Quelle [source] und Textsigle bzw. Text-ID
Das Metadatum „source“ gibt die Internetquelle des Textes an. Die „Textsigle“ (auf der KorAP-Plattform) bzw. die „Text-ID“ (in der KED-Suche) ist der eindeutige Identifikationscode eines Textes und besteht aus einer dreistelligen Quellenangabe (z.B. „HAN“ für „hanisauland-lexikon“), gefolgt von einem fünfstelligen quellenspezifischen Zähler (z.B. „HAN/00023“).
Thema [topic]
Die Themen der Texte wurden mit Hilfe eines unüberwachten maschinellen Lernverfahrens ermittelt (‚unsupervised topic modeling‘, Silge und Robinson (2017)). Das Verfahren wird ausführlicher hier beschrieben. Die Themenlabels wurden nachträglich hinzugefügt, um die Themen begrifflich zusammenzufassen.
Art der Urheberrechte [crt]
Mit dem Parameter „Art der Urheberrechte“ werden die Texte nach ihren Copyright-Lizenzen in urheberrechtsgeschützte Texte (‚ur‘) und Texte unter Creative-Commons-Lizenzen (‚cc‘) unterschieden. Derzeit unterliegen 4.497 (65,7 %) der insgesamt 6.841 KED-Texte Creative-Commons-Lizenzen.
Art der Verlinkung [link]
Unter „Art der Verlinkung“ wird angegeben, ob der Volltext als Archivkopie im Internet-Archiv „Archive.org“ (‚archiv‘) oder als Original auf die Quellwebseite (‚orig_url‘) verlinkt ist. Im Normalfall wird auf eine Archivkopie verlinkt, um die Beständigkeit der Daten zu sichern, nur in Ausnahmefällen wird auf Wunsch einzelner Rechteinhaber auf die Originalseite verlinkt.
Link zum Volltext [permalink]
Jeder Text und jeder Beleg in den Suchergebnissen ist mit einem Link zum Volltext versehen. Das ermöglicht die Ansicht der Belege im weiteren Kontext bzw. an ihrem „natürlichen Vorkommensort“ (Fandrych und Thurmair 2011, 342). Zu großen Teilen sind die Volltexte in ihrem Original-Layout und zum Teil auch mit Abbildungen und Audiodateien vorfindlich.
Datum der Aufnahme ins Korpus [date]
Das Datum der Aufnahme des Textes ins Korpus.
Titel [title]
Mit „Titel“ werden die Originaltitel jedes Textes erfasst.
Textdeckung
Die Textdeckung gibt den Anteil der Textwörter an, die in der Liste der häufigsten Wörter des Deutschen enthalten sind. Dabei wird auf der Grundlage der Herder-Häufigkeitsliste (Tschirner und Möhring 2020) zwischen den häufigsten 1.000, 2.000, 3.000, 4.000 und 5.000 Wörtern des Deutschen unterschieden. Abbildung 1 zeigt beispielhaft die Textdeckung von fünf zufällig ausgewählten Texte.
Der Text mit dem Titel Antisemitismus weist beispielsweise für die 1.000 häufigsten Wörter des Deutschen lediglich eine Textdeckung von etwa 50% auf, d.h. etwa die Hälfte der Textwörter sind in der Liste der 1.000 häufigsten Wörter des Deutschen enthalten, während die übrigen 50% nicht enthalten sind. Die Textdeckung nimmt mit dem Umfang der Wortliste zu. Eine Liste der 2.000 häufigsten Wörter des Deutschen erreicht eine Textdeckung von nahezu 60%, während die Textdeckung bei den 3.000 häufigsten Wörtern bereits über 60% liegt. Bei den 4.000 häufigsten Wörtern steigt die Textdeckung auf nahezu 65% an. Die nächsten 1.000 Wörter erzielen dagegen keine signifikante Erhöhung der Textdeckung, die bei knapp unter 65 % konstant bleibt. Abbildung 2 zeigt die Verteilung der Textdeckung im KED. Die Textdeckung lässt sich als Maß für die Schwierigkeit eines Textes interpretieren. Ein Text ist demnach umso einfacher zu verstehen, je höher die Textdeckung bei relativ kleinem Wortschatz ist (z. B. nur die 1.000 häufigsten Wörter des Deutschen) und je schneller die Textabdeckung mit steigendem Wortschatz zunimmt.
Anzahl der Absätze pro Text [npara]
Die Anzahl der Absätze (Paragraphen) pro Text ist eine Größe, um den Umfang von Texten zu erfassen.
Anzahl der laufenden Wörter pro Text [ntoks]
Die Anzahl der laufenden Wortformen pro Text ist eine Größe zur Erfassung des Umfangs der Texte.
Anzahl der Sätze pro Text [nsent]
Die Anzahl der Sätze pro Text ist eine Größe, um den Umfang und die Komplexität der Texte zu erfassen.
Anzahl der Satzzeichen pro 1.000 Tokens [npunct1ks]
Die Anzahl der Satzzeichen pro 1.000 Tokens ist eine Maß zur Erfassung von sprachlicher Komplexität.
Mittlere Satzlänge (Median) [ntokssentmd]
Die mittlere Satzlänge kann als ein Komplexitätsmaß fungieren.
Annotationen im KED
Unter Annotationen werden „Interpretationen der Primärdaten in Form linguistischer Kategorien“ (Hirschmann 2019, 21) verstanden. Die Texte im KED sind nach Wortformen und Sätzen (und Absätzen) tokenisiert. Jede Wortform ist mit ihrer Grundform (Lemma) und Wortart nach dem Stuttgart-Tübingen-Tagset (STTS) annotiert. Eine Übersicht der Wortartenkürzel ist hier einsehbar. Tokenisierung und Annotation erfolgen automatisiert mit Hilfe des Parsers spaCy.
© Daniel Jach und Gunther Dietz 2025. All rights reserved. | Impressum