Metadaten
Das KED wurde mit Metadaten versehen und nach verschiedenen Kriterien annotiert. Unter Metadaten werden Angaben über die Eigenschaften der Texte im KED verstanden. Hierzu gehören beispielsweise die Adressatengruppe, für die ein Text intendiert ist, oder die Quelle, aus der ein Text entnommen ist. In der KED-Suche können Texte nach didaktisch relevanten Eigenschaften ausgewählt und durchsucht werden. Über die KorAP-Plattform des IDS können alle Metadaten für eine gezielte Suche in bestimmten Texten genutzt werden.
Metadaten im KED
Parameter / Metadatum | Werte |
---|---|
Adressaten [rcpnt] |
|
Vertextungsstrategie [stratgy] |
|
Textsorte [type] |
|
Quelle [source] / Kürzel |
|
Thema [topic] |
|
Art der Urheberrechte [crt] |
|
Art der Verlinkung [link] |
|
Datum der Aufnahme ins Korpus [date] | Datumswerte |
Link zum Volltext [permalink] | URL des Textes im Archiv oder am Originalfundort |
Titel [title] | Der jeweilige Titel der einzelnen Texte im KED |
Textdeckung [cover1kherder] – [cover5kherder] | Anteil der Textdeckung der häufigsten 1000, 2000, 3000, 4000 und 5000 Wörter des Deutschen (nach der Herder-Liste) |
Anzahl der Absätze pro Text [npara] | Natürliche Zahl |
Anzahl der Sätze pro Text [nsent] | Natürliche Zahl |
Anzahl der laufenden Wörter pro Text [ntoks] | Naturliche Zahl |
Mittlere Satzlänge (Median) [ntokssentmd] | Dezimalzahl |
Anzahl der Satzzeichen pro 1000 Tokens [npunct1ks] | Dezimalzahl |
Adressaten [rcpnt]
Die intendierte Adressatengruppe ist in der Regel aus den Angaben der Quellwebseite eines Textes erschließbar. Beispielsweise richten sich die Webseiten „Kids&Science“ und „Recht Kinderleicht“ an Kinder. Andere Quellen richten sich erkennbar an eine erwachsene Leserschaft, etwa die Webseiten der „Apotheken-Umschau“ und des „Bundeszentrums für Ernährung“.
Textsorte [type] und Vertextungsstrategie [stratgy]
Zur Kennzeichnung der Textsortenzugehörigkeit und der Vertextungsstrategie haben wir versucht, möglichst intuitiv verständliche und alltagssprachlich verwendete Begrifflichkeiten zu nutzen. Unterschieden werden die Textsorten „Argumentation“, „Empfehlung“, „Erklärtext“, „Experiment“, „Lexikoneintrag“ und „Nachricht“ sowie die Vertextungsstrategien „Anweisen“, „Argumentieren“, „Berichten“ und „Erklären“.
Quelle [source] und Textsigle bzw. Text-ID
Das Metadatum „source“ gibt die Internetquelle des Textes an. Die „Textsigle“ (auf der KorAP-Plattform) bzw. die „Text-ID“ (in der KED-Suche) ist der eindeutige Identifikationscode eines Textes und besteht aus einer dreistelligen Quellenangabe (z.B. „HAN“ für „hanisauland-lexikon“), gefolgt von einem fünfstelligen quellenspezifischen Zähler (z.B. „HAN/00023“).
Thema [topic]
Die Themen der Texte wurden mit Hilfe eines unüberwachten maschinellen Lernverfahrens ermittelt (‚unsupervised topic modeling‘, Silge und Robinson (2017)). Das Verfahren wird ausführlicher hier beschrieben. Die Themenlabels wurden nachträglich hinzugefügt, um die Themen begrifflich zusammenzufassen.
Art der Urheberrechte [crt]
Mit dem Parameter „Art der Urheberrechte“ werden die Texte nach ihren Copyright-Lizenzen in urheberrechtsgeschützte Texte (‚ur‘) und Texte unter Creative-Commons-Lizenzen (‚cc‘) unterschieden. Derzeit unterliegen 4.497 (65,7 %) der insgesamt 6.841 KED-Texte Creative-Commons-Lizenzen.
Art der Verlinkung [link]
Unter „Art der Verlinkung“ wird angegeben, ob der Volltext als Archivkopie im Internet-Archiv „Archive.org“ (‚archiv‘) oder als Original auf die Quellwebseite (‚orig_url‘) verlinkt ist. Im Normalfall wird auf eine Archivkopie verlinkt, um die Beständigkeit der Daten zu sichern, nur in Ausnahmefällen wird auf Wunsch einzelner Rechteinhaber auf die Originalseite verlinkt.
Link zum Volltext [permalink]
Jeder Text und jeder Beleg in den Suchergebnissen ist mit einem Link zum Volltext versehen. Das ermöglicht die Ansicht der Belege im weiteren Kontext bzw. an ihrem „natürlichen Vorkommensort“ (Fandrych und Thurmair 2011, 342). Zu großen Teilen sind die Volltexte in ihrem Original-Layout und zum Teil auch mit Abbildungen und Audiodateien vorfindlich.
Datum der Aufnahme ins Korpus [date]
Das Datum der Aufnahme des Textes ins Korpus.
Titel [title]
Mit „Titel“ werden die Originaltitel jedes Textes erfasst.
Textdeckung [cover1kherder - cover5kherder]
Die Textdeckung gibt den Anteil der Textwörter an, die in der Liste der häufigsten Wörter des Deutschen enthalten sind. Dabei wird auf der Grundlage der Herder-Häufigkeitsliste (Tschirner und Möhring 2020) zwischen den häufigsten 1.000, 2.000, 3.000, 4.000 und 5.000 Wörtern des Deutschen unterschieden. Die Textdeckung lässt sich als Maß für die Schwierigkeit eines Textes interpretieren. Ein Text ist demnach umso einfacher zu verstehen, je höher die Textdeckung bei relativ kleinem Wortschatz ist (z. B. nur die 1.000 häufigsten Wörter des Deutschen) und je schneller die Textdeckung mit wachsendem Wortschatz zunimmt. Abbildung 1 zeigt beispielhaft die Textdeckung von fünf zufällig ausgewählten Texte.
Die Texte mit den Titeln Wissen und Gänsehaut weisen bereits für die 1.000 häufigsten Wörter des Deutschen eine relativ hohe Textdeckung von über 65% auf. Das bedeutet, dass etwa zwei Drittel der Wörter in diesen Texten in der Liste der 1.000 häufigsten Wörter enthalten sind, während das restliche Drittel nicht enthalten ist. Mit wachsendem Wortschatz nimmt auch die Textdeckung zu. Diese Texte sind vermutlich einfacher zu verstehen als der Text mit dem Titel Koblenz, der durchgehend eine vergleichsweise niedrige Textdeckung von unter 60% aufweist und erst bei einem Wortschatz der 5.000 häufigsten Wörter eine Textdeckung von knapp über 60% erreicht. Die Texte mit den Titeln Arabien und Antisemitismus zeigen hingegen eine relativ niedrige Textdeckung von unter 55% für die 1.000 häufigsten Wörter des Deutschen. Die Textdeckung nimmt jedoch mit der Größe des Wortschatzes rapide zu. Eine Liste der 2.000 häufigsten Wörter des Deutschen erreicht eine Textdeckung von nahezu 60%. Anschließend steigt die Textdeckung für den Text Arabien schneller an als die für den Text Antisemitismus und erreicht bei den 5.000 häufigsten Wörtern Werte von nahezu 70% bzw. 65%. Abbildung 2 zeigt die Verteilung der Textdeckung im KED in Form der Wahrscheinlichkeitsdichte. Die Wahrscheinlichkeitsdichte gibt an, mit welcher Wahrscheinlichkeit ein Text im Korpus in einen bestimmten Bereich der Textdeckung fällt. Je größer die Fläche unter der Kurve in einem bestimmten Intervall ist, desto höher ist die Wahrscheinlichkeit, dass ein Text in diesen Bereich der Textdeckung fällt. Ein Lernender, der beispielsweise über einen Wortschatz von 1.000 der häufigsten Wörter des Deutschen verfügt und einen zufälligen Text aus dem KED auswählt, wird mit hoher Wahrscheinlichkeit eine Textdeckung zwischen 50% und 60% erreichen. Eine Textabdeckung zwischen 60% und 70% ist dagegen weniger wahrscheinlich, eine Textdeckung über 70% ist unwahrscheinlich.
Anzahl der Absätze pro Text [npara]
Die Anzahl der Absätze (Paragraphen) pro Text ist eine Größe, um den Umfang von Texten zu erfassen.
Anzahl der laufenden Wörter pro Text [ntoks]
Die Anzahl der laufenden Wortformen pro Text ist eine Größe zur Erfassung des Umfangs der Texte.
Anzahl der Sätze pro Text [nsent]
Die Anzahl der Sätze pro Text ist eine Größe, um den Umfang und die Komplexität der Texte zu erfassen.
Anzahl der Satzzeichen pro 1.000 Tokens [npunct1ks]
Die Anzahl der Satzzeichen pro 1.000 Tokens ist eine Maß zur Erfassung von sprachlicher Komplexität.
Mittlere Satzlänge (Median) [ntokssentmd]
Die mittlere Satzlänge kann als ein Komplexitätsmaß fungieren.
Annotationen im KED
Unter Annotationen werden „Interpretationen der Primärdaten in Form linguistischer Kategorien“ (Hirschmann 2019, 21) verstanden. Die Texte im KED sind nach Wortformen und Sätzen (und Absätzen) tokenisiert. Jede Wortform ist mit ihrer Grundform (Lemma) und Wortart nach dem Stuttgart-Tübingen-Tagset (STTS) annotiert. Eine Übersicht der Wortartenkürzel ist hier einsehbar. Tokenisierung und Annotation erfolgten automatisiert mit Hilfe des Parsers spaCy.
© Daniel Jach und Gunther Dietz 2025. All rights reserved. | Impressum