Metadaten

Das KED wurde mit Metadaten versehen und nach verschiedenen Kriterien annotiert. Unter Metadaten werden Angaben über die Eigenschaften der Texte im KED verstanden. Hierzu gehören beispielsweise die Adressatengruppe, für die ein Text intendiert ist, oder die Quelle, aus der ein Text entnommen ist. In der KED-Suche können Texte nach didaktisch relevanten Eigenschaften ausgewählt und durchsucht werden. Über die KorAP-Plattform des IDS können alle Metadaten für eine gezielte Suche in bestimmten Texten genutzt werden.

Metadaten im KED

Übersicht aller Metadaten im KED
Parameter / Metadatum	Werte
Adressaten [rcpnt]	Kinder Jugendliche Erwachsene
Vertextungsstrategie [strtgy]	Anweisen Argumentieren Berichten Erklären
Textsorte [type]	Argumentation Empfehlung Erklärtext Experiment Lexikonartikel Nachricht
Quelle [source] / Kürzel	apotheken-umschau / AUM bpb / BPB bpb-lexikon / BPL bzfe / BZE deinspiegel / DSP fluter / FLU hanisauland-lexikon / HAN internetabc / ABC kidsandscience-erklaertexte / KSE kidsandscience-experimente / KSX kindersache-nachrichten / KSN klexikon / KLX kuppelkucker-lexikon / KKL kuppelkucker-nachrichten / KKN recht-kinderleicht / RKI scroller / SCR simplyscience-experimente-jugendliche / SSJ simplyscience-experimente-kinder / SSK simplyscience-wissen / SSW
Thema [topic]	Geschichte und Kultur Gesundheit und Krankheit Natur und Leben Politik und Gesellschaft
Art der Urheberrechte [crt]	cc ur
Art der Verlinkung [link]	archiv orig_url
Datum der Aufnahme ins Korpus [date]	Datumswerte
Link zum Volltext [permalink]	URL des Textes im Archiv oder am Originalfundort
Titel [title]	Der jeweilige Titel der einzelnen Texte im KED
Textdeckung [cover1kherder] – [cover5kherder]	Anteil der Textdeckung der häufigsten 1000, 2000, 3000, 4000 und 5000 Wörter des Deutschen (nach der Herder-Liste)
Anzahl der Absätze pro Text [npara]	Natürliche Zahl
Anzahl der Sätze pro Text [nsent]	Natürliche Zahl
Anzahl der laufenden Wörter pro Text [ntoks]	Naturliche Zahl
Mittlere Satzlänge (Median) [ntokssentmd]	Dezimalzahl
Anzahl der Satzzeichen pro 1000 Tokens [npunct1ks]	Dezimalzahl

Adressaten [rcpnt]

Die intendierte Adressatengruppe ist in der Regel aus den Angaben der Quellwebseite eines Textes erschließbar. Beispielsweise richten sich die Webseiten „Kids&Science“ und „Recht Kinderleicht“ an Kinder. Andere Quellen richten sich erkennbar an eine erwachsene Leserschaft, etwa die Webseiten der „Apotheken-Umschau“ und des „Bundeszentrums für Ernährung“.

Textsorte [type] und Vertextungsstrategie [strtgy]

Zur Kennzeichnung der Textsortenzugehörigkeit und der Vertextungsstrategie haben wir versucht, möglichst intuitiv verständliche und alltagssprachlich verwendete Begrifflichkeiten zu nutzen. Unterschieden werden die Textsorten „Argumentation“, „Empfehlung“, „Erklärtext“, „Experiment“, „Lexikoneintrag“ und „Nachricht“ sowie die Vertextungsstrategien „Anweisen“, „Argumentieren“, „Berichten“ und „Erklären“.

Quelle [source] und Textsigle bzw. Text-ID

Das Metadatum „source“ gibt die Internetquelle des Textes an. Die „Textsigle“ (auf der KorAP-Plattform) bzw. die „Text-ID“ (in der KED-Suche) ist der eindeutige Identifikationscode eines Textes und besteht aus einer dreistelligen Quellenangabe (z.B. „HAN“ für „hanisauland-lexikon“), gefolgt von einem fünfstelligen quellenspezifischen Zähler (z.B. „HAN/00023“).

Thema [topic]

Die Themen der Texte wurden mit Hilfe eines unüberwachten maschinellen Lernverfahrens ermittelt (‚unsupervised topic modeling‘, Silge und Robinson (2017)). Die Themenlabels wurden nachträglich hinzugefügt, um die Themen begrifflich zusammenzufassen.

Art der Urheberrechte [crt]

Mit dem Parameter „Art der Urheberrechte“ werden die Texte nach ihren Copyright-Lizenzen in urheberrechtsgeschützte Texte (‚ur‘) und Texte unter Creative-Commons-Lizenzen (‚cc‘) unterschieden. Derzeit unterliegen 4.497 (65,7 %) der insgesamt 6.841 KED-Texte Creative-Commons-Lizenzen.

Art der Verlinkung [link]

Unter „Art der Verlinkung“ wird angegeben, ob der Volltext als Archivkopie im Internet-Archiv „Archive.org“ (‚archiv‘) oder als Original auf die Quellwebseite (‚orig_url‘) verlinkt ist. Im Normalfall wird auf eine Archivkopie verlinkt, um die Beständigkeit der Daten zu sichern, nur in Ausnahmefällen wird auf Wunsch einzelner Rechteinhaber auf die Originalseite verlinkt.

Link zum Volltext [permalink]

Jeder Text und jeder Beleg in den Suchergebnissen ist mit einem Link zum Volltext versehen. Das ermöglicht die Ansicht der Belege im weiteren Kontext bzw. an ihrem „natürlichen Vorkommensort“ (Fandrych und Thurmair 2011, 342). Zu großen Teilen sind die Volltexte in ihrem Original-Layout und zum Teil auch mit Abbildungen und Audiodateien vorfindlich.

Datum der Aufnahme ins Korpus [date]

Das Datum der Aufnahme des Textes ins Korpus.

Titel [title]

Mit „Titel“ werden die Originaltitel jedes Textes erfasst.

Textdeckung [cover1kherder - cover5kherder]

Die Textdeckung gibt den Anteil der Textwörter an, die in der Liste der häufigsten Wörter des Deutschen enthalten sind. Dabei wird auf der Grundlage der Herder-Häufigkeitsliste (Tschirner und Möhring 2020) zwischen den häufigsten 1.000, 2.000, 3.000, 4.000 und 5.000 Wörtern des Deutschen unterschieden. Die Textdeckung lässt sich als Maß für die Schwierigkeit eines Textes interpretieren. Ein Text ist demnach umso einfacher zu verstehen, je höher die Textdeckung bei relativ kleinem Wortschatz ist (z. B. nur die 1.000 häufigsten Wörter des Deutschen).

Anzahl der Absätze pro Text [npara]

Die Anzahl der Absätze (Paragraphen) pro Text ist eine Größe, um den Umfang von Texten zu erfassen.

Anzahl der laufenden Wörter pro Text [ntoks]

Die Anzahl der laufenden Wortformen pro Text ist eine Größe zur Erfassung des Umfangs der Texte.

Anzahl der Sätze pro Text [nsent]

Die Anzahl der Sätze pro Text ist eine Größe, um den Umfang und die Komplexität der Texte zu erfassen.

Anzahl der Satzzeichen pro 1.000 Tokens [npunct1ks]

Die Anzahl der Satzzeichen pro 1.000 Tokens ist eine Maß zur Erfassung von sprachlicher Komplexität.

Mittlere Satzlänge (Median) [ntokssentmd]

Die mittlere Satzlänge kann als ein Komplexitätsmaß fungieren.

Annotationen im KED

Unter Annotationen werden „Interpretationen der Primärdaten in Form linguistischer Kategorien“ (Hirschmann 2019, 21) verstanden. Die Texte im KED sind nach Wortformen und Sätzen (und Absätzen) tokenisiert. Jede Wortform ist mit ihrer Grundform (Lemma) und Wortart nach dem Stuttgart-Tübingen-Tagset (STTS) annotiert. Eine Übersicht der Wortartenkürzel ist hier einsehbar. Tokenisierung und Annotation erfolgten automatisiert mit Hilfe des Parsers spaCy.

Literatur

Fandrych, Christian, und Maria Thurmair. 2011. Textsorten im Deutschen. Tübingen.

Hirschmann, Hagen. 2019. Korpuslinguistik. Eine Einführung. Berlin: J. B. Metzler.

Silge, Julia, und David Robinson. 2017. Text Mining with R: A Tidy Approach. Sebastopol, CA: O’Reilly. https://www.tidytextmining.com/.

Tschirner, Erwin, und Jupp Möhring. 2020. A frequency dictionary of German: core vocabulary for learners. 2. Aufl. Abingdon, Oxon, und New York, NY: Routledge.