Metadaten

Das KED wurde mit Metadaten versehen und nach verschiedenen Kriterien annotiert. Unter Metadaten werden Angaben über die Eigenschaften der Texte im KED verstanden. Hierzu gehören beispielsweise die Adressatengruppe, für die ein Text intendiert ist, oder die Quelle, aus der ein Text entnommen ist. In der KED-Suche können Texte nach didaktisch relevanten Eigenschaften ausgewählt und durchsucht werden. Über die KorAP-Plattform des IDS können alle Metadaten für eine gezielte Suche in bestimmten Texten genutzt werden.

Metadaten im KED

Übersicht aller Metadaten im KED
Parameter / Metadatum Werte
Adressaten [rcpnt]
  • Kinder
  • Jugendliche
  • Erwachsene
Vertextungsstrategie [stratgy]
  • Anweisen
  • Argumentieren
  • Berichten
  • Erklären
Textsorte [type]
  • Argumentation
  • Empfehlung
  • Erklärtext
  • Experiment
  • Lexikonartikel
  • Nachricht
Quelle [source] / Kürzel
  • apotheken-umschau / AUM
  • bpb / BPB
  • bpb-lexikon / BPL
  • bzfe / BZE
  • deinspiegel / DSP
  • fluter / FLU
  • hanisauland-lexikon / HAN
  • internetabc / ABC
  • kidsandscience-erklaertexte / KSE
  • kidsandscience-experimente / KSX
  • kindersache-nachrichten / KSN
  • klexikon / KLX
  • kuppelkucker-lexikon / KKL
  • kuppelkucker-nachrichten / KKN
  • recht-kinderleicht / RKI
  • scroller / SCR
  • simplyscience-experimente-jugendliche / SSJ
  • simplyscience-experimente-kinder / SSK
  • simplyscience-wissen / SSW
Thema [topic]
  • Geschichte und Kultur
  • Gesundheit und Krankheit
  • Natur und Leben
  • Politik und Gesellschaft
Art der Urheberrechte [crt]
  • cc
  • ur
Art der Verlinkung [link]
  • archiv
  • orig_url
Datum der Aufnahme ins Korpus [date] Datumswerte
Link zum Volltext [permalink] URL des Textes im Archiv oder am Originalfundort
Titel [title] Der jeweilige Titel der einzelnen Texte im KED
Textdeckung [cover1kherder] – [cover5kherder] Anteil der Textdeckung der häufigsten 1000, 2000, 3000, 4000 und 5000 Wörter des Deutschen (nach der Herder-Liste)
Anzahl der Absätze pro Text [npara] Natürliche Zahl
Anzahl der Sätze pro Text [nsent] Natürliche Zahl
Anzahl der laufenden Wörter pro Text [ntoks] Naturliche Zahl
Mittlere Satzlänge (Median) [ntokssentmd] Dezimalzahl
Anzahl der Satzzeichen pro 1000 Tokens [npunct1ks] Dezimalzahl

Adressaten [rcpnt]

Die intendierte Adressatengruppe ist in der Regel aus den Angaben der Quellwebseite eines Textes erschließbar. Beispielsweise richten sich die Webseiten „Kids&Science“ und „Recht Kinderleicht“ an Kinder. Andere Quellen richten sich erkennbar an eine erwachsene Leserschaft, etwa die Webseiten der „Apotheken-Umschau“ und des „Bundeszentrums für Ernährung“.

Textsorte [type] und Vertextungsstrategie [stratgy]

Zur Kennzeichnung der Textsortenzugehörigkeit und der Vertextungsstrategie haben wir versucht, möglichst intuitiv verständliche und alltagssprachlich verwendete Begrifflichkeiten zu nutzen. Für die Einteilung werden möglichst intuitiv verständliche, alltagssprachliche Begriffe verwendet. Unterschieden werden die Textsorten „Argumentation“, „Empfehlung“, „Erklärtext“, „Experiment“, „Lexikoneintrag“ und „Nachricht“ sowie die Vertextungsstrategien „Anweisen“, „Argumentieren“, „Berichten“ und „Erklären“.

Quelle [source] und Textsigle bzw. Text-ID

Das Metadatum „source“ gibt die Internetquelle des Textes an. Die „Textsigle“ (auf der KorAP-Plattform) bzw. die „Text-ID“ (in der KED-Suche) ist der eindeutige Identifikationscode eines Textes und besteht aus einer dreistelligen Quellenangabe (z.B. „HAN“ für „hanisauland-lexikon“), gefolgt von einem fünfstelligen quellenspezifischen Zähler (z.B. „HAN/00023“).

Thema [topic]

Die Themen der Texte wurden mit Hilfe eines unüberwachten maschinellen Lernverfahrens ermittelt (‚unsupervised topic modeling‘, Silge und Robinson (2017)). Das Verfahren wird ausführlicher hier beschrieben. Die Themenlabels wurden nachträglich hinzugefügt, um die Themen begrifflich zusammenzufassen.

Art der Urheberrechte [crt]

Mit dem Parameter „Art der Urheberrechte“ werden die Texte nach ihren Copyright-Lizenzen in urheberrechtsgeschützte Texte (‚ur‘) und Texte unter Creative-Commons-Lizenzen (‚cc‘) unterschieden. Derzeit unterliegen 4.497 (65,7 %) der insgesamt 6.841 KED-Texte Creative-Commons-Lizenzen.

Datum der Aufnahme ins Korpus [date]

Das Datum der Aufnahme des Textes ins Korpus.

Titel [title]

Mit „Titel“ werden die Originaltitel jedes Textes erfasst.

Textdeckung

Die Textdeckung gibt den Anteil der Textwörter an, die in der Liste der häufigsten Wörter des Deutschen enthalten sind. Dabei wird auf der Grundlage der Herder-Häufigkeitsliste (Tschirner und Möhring 2020) zwischen den häufigsten 1.000, 2.000, 3.000, 4.000 und 5.000 Wörtern des Deutschen unterschieden. Abbildung 1 zeigt beispielhaft die Textdeckung von fünf zufällig ausgewählten Texte.

Abbildung 1: Textdeckung ausgewählter Texte
Abbildung 2: Verteilung der Textdeckung im KED

Der Text mit dem Titel Antisemitismus weist beispielsweise für die 1.000 häufigsten Wörter des Deutschen lediglich eine Textdeckung von etwa 50% auf, d.h. etwa die Hälfte der Textwörter sind in der Liste der 1.000 häufigsten Wörter des Deutschen enthalten, während die übrigen 50% nicht enthalten sind. Die Textdeckung nimmt mit dem Umfang der Wortliste zu. Eine Liste der 2.000 häufigsten Wörter des Deutschen erreicht eine Textdeckung von nahezu 60%, während die Textdeckung bei den 3.000 häufigsten Wörtern bereits über 60% liegt. Bei den 4.000 häufigsten Wörtern steigt die Textdeckung auf nahezu 65% an. Die nächsten 1.000 Wörter erzielen dagegen keine signifikante Erhöhung der Textdeckung, die bei knapp unter 65 % konstant bleibt. Abbildung 2 zeigt die Verteilung der Textdeckung im KED. Die Textdeckung lässt sich als Maß für die Schwierigkeit eines Textes interpretieren. Ein Text ist demnach umso einfacher zu verstehen, je höher die Textdeckung bei relativ kleinem Wortschatz ist (z. B. nur die 1.000 häufigsten Wörter des Deutschen) und je schneller die Textabdeckung mit steigendem Wortschatz zunimmt.

Anzahl der Absätze pro Text [npara]

Die Anzahl der Absätze (Paragraphen) pro Text ist eine Größe, um den Umfang von Texten zu erfassen.

Anzahl der laufenden Wörter pro Text [ntoks]

Die Anzahl der laufenden Wortformen pro Text ist eine Größe zur Erfassung des Umfangs der Texte.

Anzahl der Sätze pro Text [nsent]

Die Anzahl der Sätze pro Text ist eine Größe, um den Umfang und die Komplexität der Texte zu erfassen.

Anzahl der Satzzeichen pro 1.000 Tokens [npunct1ks]

Die Anzahl der Satzzeichen pro 1.000 Tokens ist eine Maß zur Erfassung von sprachlicher Komplexität.

Mittlere Satzlänge (Median) [ntokssentmd]

Die mittlere Satzlänge kann als ein Komplexitätsmaß fungieren.

Annotationen im KED

Unter Annotationen werden „Interpretationen der Primärdaten in Form linguistischer Kategorien“ (Hirschmann 2019, 21) verstanden. Die Texte im KED sind nach Wortformen und Sätzen (und Absätzen) tokenisiert. Jede Wortform ist mit ihrer Grundform (Lemma) und Wortart nach dem Stuttgart-Tübingen-Tagset (STTS) annotiert. Eine Übersicht der Wortartenkürzel ist hier einsehbar. Tokenisierung und Annotation erfolgen automatisiert mit Hilfe des Parsers spaCy.

© Daniel Jach und Gunther Dietz 2025. All rights reserved. | Impressum

Literatur

Fandrych, Christian, und Maria Thurmair. 2011. Textsorten im Deutschen. Tübingen.
Hirschmann, Hagen. 2019. Korpuslinguistik. Eine Einführung. Berlin: J. B. Metzler.
Silge, Julia, und David Robinson. 2017. Text Mining with R: A Tidy Approach. Sebastopol, CA: O’Reilly. https://www.tidytextmining.com/.
Tschirner, Erwin, und Jupp Möhring. 2020. A frequency dictionary of German: core vocabulary for learners. 2. Aufl. Abingdon, Oxon, und New York, NY: Routledge.