Metadaten

Das KED wurde mit Metadaten versehen und nach verschiedenen Kriterien annotiert. Unter Metadaten werden Angaben über die Eigenschaften der Texte im KED verstanden. Hierzu gehören beispielsweise die Adressatengruppe, für die ein Text intendiert ist, oder die Quelle, aus der ein Text entnommen ist. In der KED-Suche können Texte nach didaktisch relevanten Eigenschaften ausgewählt und durchsucht werden. Über die KorAP-Plattform des IDS können alle Metadaten für eine gezielte Suche in bestimmten Texten genutzt werden.

Metadaten im KED

Übersicht aller Metadaten im KED
Parameter / Metadatum Werte
Adressaten [rcpnt]
  • Kinder
  • Jugendliche
  • Erwachsene
Vertextungsstrategie [stratgy]
  • Anweisen
  • Argumentieren
  • Berichten
  • Erklären
Textsorte [type]
  • Argumentation
  • Empfehlung
  • Erklärtext
  • Experiment
  • Lexikonartikel
  • Nachricht
Quelle [source] / Kürzel
  • apotheken-umschau / AUM
  • bpb / BPB
  • bpb-lexikon / BPL
  • bzfe / BZE
  • deinspiegel / DSP
  • fluter / FLU
  • hanisauland-lexikon / HAN
  • internetabc / ABC
  • kidsandscience-erklaertexte / KSE
  • kidsandscience-experimente / KSX
  • kindersache-nachrichten / KSN
  • klexikon / KLX
  • kuppelkucker-lexikon / KKL
  • kuppelkucker-nachrichten / KKN
  • recht-kinderleicht / RKI
  • scroller / SCR
  • simplyscience-experimente-jugendliche / SSJ
  • simplyscience-experimente-kinder / SSK
  • simplyscience-wissen / SSW
Thema [topic]
  • Geschichte und Kultur
  • Gesundheit und Krankheit
  • Natur und Leben
  • Politik und Gesellschaft
Art der Urheberrechte [crt]
  • cc
  • ur
Art der Verlinkung [link]
  • archiv
  • orig_url
Datum der Aufnahme ins Korpus [date] Datumswerte
Link zum Volltext [permalink] URL des Textes im Archiv oder am Originalfundort
Titel [title] Der jeweilige Titel der einzelnen Texte im KED
Textdeckung [cover1kherder] – [cover5kherder] Anteil der Textdeckung der häufigsten 1000, 2000, 3000, 4000 und 5000 Wörter des Deutschen (nach der Herder-Liste)
Anzahl der Absätze pro Text [npara] Natürliche Zahl
Anzahl der Sätze pro Text [nsent] Natürliche Zahl
Anzahl der laufenden Wörter pro Text [ntoks] Naturliche Zahl
Mittlere Satzlänge (Median) [ntokssentmd] Dezimalzahl
Anzahl der Satzzeichen pro 1000 Tokens [npunct1ks] Dezimalzahl

Adressaten [rcpnt]

Die intendierte Adressatengruppe ist in der Regel aus den Angaben der Quellwebseite eines Textes erschließbar. Beispielsweise richten sich die Webseiten „Kids&Science“ und „Recht Kinderleicht“ an Kinder. Andere Quellen richten sich erkennbar an eine erwachsene Leserschaft, etwa die Webseiten der „Apotheken-Umschau“ und des „Bundeszentrums für Ernährung“.

Textsorte [type] und Vertextungsstrategie [stratgy]

Zur Kennzeichnung der Textsortenzugehörigkeit und der Vertextungsstrategie haben wir versucht, möglichst intuitiv verständliche und alltagssprachlich verwendete Begrifflichkeiten zu nutzen. Unterschieden werden die Textsorten „Argumentation“, „Empfehlung“, „Erklärtext“, „Experiment“, „Lexikoneintrag“ und „Nachricht“ sowie die Vertextungsstrategien „Anweisen“, „Argumentieren“, „Berichten“ und „Erklären“.

Quelle [source] und Textsigle bzw. Text-ID

Das Metadatum „source“ gibt die Internetquelle des Textes an. Die „Textsigle“ (auf der KorAP-Plattform) bzw. die „Text-ID“ (in der KED-Suche) ist der eindeutige Identifikationscode eines Textes und besteht aus einer dreistelligen Quellenangabe (z.B. „HAN“ für „hanisauland-lexikon“), gefolgt von einem fünfstelligen quellenspezifischen Zähler (z.B. „HAN/00023“).

Thema [topic]

Die Themen der Texte wurden mit Hilfe eines unüberwachten maschinellen Lernverfahrens ermittelt (‚unsupervised topic modeling‘, Silge und Robinson (2017)). Das Verfahren wird ausführlicher hier beschrieben. Die Themenlabels wurden nachträglich hinzugefügt, um die Themen begrifflich zusammenzufassen.

Art der Urheberrechte [crt]

Mit dem Parameter „Art der Urheberrechte“ werden die Texte nach ihren Copyright-Lizenzen in urheberrechtsgeschützte Texte (‚ur‘) und Texte unter Creative-Commons-Lizenzen (‚cc‘) unterschieden. Derzeit unterliegen 4.497 (65,7 %) der insgesamt 6.841 KED-Texte Creative-Commons-Lizenzen.

Datum der Aufnahme ins Korpus [date]

Das Datum der Aufnahme des Textes ins Korpus.

Titel [title]

Mit „Titel“ werden die Originaltitel jedes Textes erfasst.

Textdeckung [cover1kherder - cover5kherder]

Die Textdeckung gibt den Anteil der Textwörter an, die in der Liste der häufigsten Wörter des Deutschen enthalten sind. Dabei wird auf der Grundlage der Herder-Häufigkeitsliste (Tschirner und Möhring 2020) zwischen den häufigsten 1.000, 2.000, 3.000, 4.000 und 5.000 Wörtern des Deutschen unterschieden. Die Textdeckung lässt sich als Maß für die Schwierigkeit eines Textes interpretieren. Ein Text ist demnach umso einfacher zu verstehen, je höher die Textdeckung bei relativ kleinem Wortschatz ist (z. B. nur die 1.000 häufigsten Wörter des Deutschen) und je schneller die Textdeckung mit wachsendem Wortschatz zunimmt. Abbildung 1 zeigt beispielhaft die Textdeckung von fünf zufällig ausgewählten Texte.

Abbildung 1: Textdeckung ausgewählter Texte
Abbildung 2: Verteilung der Textdeckung im KED; m = Mittelwert

Die Texte mit den Titeln Wissen und Gänsehaut weisen bereits für die 1.000 häufigsten Wörter des Deutschen eine relativ hohe Textdeckung von über 65% auf. Das bedeutet, dass etwa zwei Drittel der Wörter in diesen Texten in der Liste der 1.000 häufigsten Wörter enthalten sind, während das restliche Drittel nicht enthalten ist. Mit wachsendem Wortschatz nimmt auch die Textdeckung zu. Diese Texte sind vermutlich einfacher zu verstehen als der Text mit dem Titel Koblenz, der durchgehend eine vergleichsweise niedrige Textdeckung von unter 60% aufweist und erst bei einem Wortschatz der 5.000 häufigsten Wörter eine Textdeckung von knapp über 60% erreicht. Die Texte mit den Titeln Arabien und Antisemitismus zeigen hingegen eine relativ niedrige Textdeckung von unter 55% für die 1.000 häufigsten Wörter des Deutschen. Die Textdeckung nimmt jedoch mit der Größe des Wortschatzes rapide zu. Eine Liste der 2.000 häufigsten Wörter des Deutschen erreicht eine Textdeckung von nahezu 60%. Anschließend steigt die Textdeckung für den Text Arabien schneller an als die für den Text Antisemitismus und erreicht bei den 5.000 häufigsten Wörtern Werte von nahezu 70% bzw. 65%. Abbildung 2 zeigt die Verteilung der Textdeckung im KED in Form der Wahrscheinlichkeitsdichte. Die Wahrscheinlichkeitsdichte gibt an, mit welcher Wahrscheinlichkeit ein Text im Korpus in einen bestimmten Bereich der Textdeckung fällt. Je größer die Fläche unter der Kurve in einem bestimmten Intervall ist, desto höher ist die Wahrscheinlichkeit, dass ein Text in diesen Bereich der Textdeckung fällt. Ein Lernender, der beispielsweise über einen Wortschatz von 1.000 der häufigsten Wörter des Deutschen verfügt und einen zufälligen Text aus dem KED auswählt, wird mit hoher Wahrscheinlichkeit eine Textdeckung zwischen 50% und 60% erreichen. Eine Textabdeckung zwischen 60% und 70% ist dagegen weniger wahrscheinlich, eine Textdeckung über 70% ist unwahrscheinlich.

Anzahl der Absätze pro Text [npara]

Die Anzahl der Absätze (Paragraphen) pro Text ist eine Größe, um den Umfang von Texten zu erfassen.

Anzahl der laufenden Wörter pro Text [ntoks]

Die Anzahl der laufenden Wortformen pro Text ist eine Größe zur Erfassung des Umfangs der Texte.

Anzahl der Sätze pro Text [nsent]

Die Anzahl der Sätze pro Text ist eine Größe, um den Umfang und die Komplexität der Texte zu erfassen.

Anzahl der Satzzeichen pro 1.000 Tokens [npunct1ks]

Die Anzahl der Satzzeichen pro 1.000 Tokens ist eine Maß zur Erfassung von sprachlicher Komplexität.

Mittlere Satzlänge (Median) [ntokssentmd]

Die mittlere Satzlänge kann als ein Komplexitätsmaß fungieren.

Annotationen im KED

Unter Annotationen werden „Interpretationen der Primärdaten in Form linguistischer Kategorien“ (Hirschmann 2019, 21) verstanden. Die Texte im KED sind nach Wortformen und Sätzen (und Absätzen) tokenisiert. Jede Wortform ist mit ihrer Grundform (Lemma) und Wortart nach dem Stuttgart-Tübingen-Tagset (STTS) annotiert. Eine Übersicht der Wortartenkürzel ist hier einsehbar. Tokenisierung und Annotation erfolgten automatisiert mit Hilfe des Parsers spaCy.

© Daniel Jach und Gunther Dietz 2025. All rights reserved. | Impressum

Literatur

Fandrych, Christian, und Maria Thurmair. 2011. Textsorten im Deutschen. Tübingen.
Hirschmann, Hagen. 2019. Korpuslinguistik. Eine Einführung. Berlin: J. B. Metzler.
Silge, Julia, und David Robinson. 2017. Text Mining with R: A Tidy Approach. Sebastopol, CA: O’Reilly. https://www.tidytextmining.com/.
Tschirner, Erwin, und Jupp Möhring. 2020. A frequency dictionary of German: core vocabulary for learners. 2. Aufl. Abingdon, Oxon, und New York, NY: Routledge.