Aufbau

Überblick

Das KED umfasst gegenwärtig 6.841 Texte aus 19 verschiedenen Internetquellen. Tabelle 1 fasst das Korpus zusammen.

Tabelle 1: KED im Überblick
KED
Quellen: n 19
Texte: n 6.841
Tokens: n 2.803.454
Tokens/Text: m (se) 409,8 (3,57)
Sätze: n 224.042
Sätze/Text: m (se) 32,75 (0,31)

Anmerkung: n = Anzahl, m = Mittelwert, se = Standardfehler

Zusammensetzung des Korpus

Im Folgenden wird das Korpus nach der Adressatengruppe, der Textsorte, der Vertextungsstrategie und dem Thema der enthaltenen Texte beschrieben. Weitere Metadaten und Annotationen werden hier beschrieben.

Die Adressatengruppe bezeichnet die Gruppe von Lesern, für die der Text in erster Linie geschrieben wurde. Die Adressatengruppe eines Textes ergibt sich in der Regel aus der Internetquelle. Häufig wird dort explizit auf die intendierte Adressatengruppe hingewiesen. So richten sich Texte der Internetseite Kuppelkucker beispielsweise an Kinder1, Texte aus der Online-Ausgabe des Fluter-Magazins, herausgegeben von der Bundeszentrale für politische Bildung, an eine jugendliche Leserschaft2.

Textsorte und Vertextungsstrategie wurden den Texten von uns jeweils pauschal allen Texten einer Quelle zugewiesen. Ausgehend von der Annahme, „dass Textsorten in der Regel mehrere Strategien kombinieren, oft […] aber eine Strategie dominierend [ist]“ (Wöllstein 2016, 1164), wurden in Zweifelsfällen dominierende Vertextungsstrategien annotiert, auch wenn in einzelnen Texten weitere Strategien vorfindlich sind. Beispielsweise weisen viele Exemplare der Textsorte „Empfehlung“ aus dem Online-Angebot des Bundeszentrums für Ernäherung3 sowohl erklärende als auch anweisende Passagen auf. Tabelle 2 zeigt die Zuordnung von Textsorten und Vertextungsstrategien zu den KED-Quellen.

Tabelle 2: Zuordnung von Textsorten und Vertextungsstrategien zu den KED-Quellen
Quelle Textsorte Vertextungsstrategie
apotheken-umschau Empfehlung Erklären
bpb Erklärtext Erklären
bpb-lexikon Lexikonartikel Erklären
bzfe Empfehlung Erklären
deinspiegel Erklärtext Erklären
fluter Argumentation Argumentieren
hanisauland-lexikon Lexikonartikel Erklären
internetabc Empfehlung Anweisen
kidsandscience-erklaertexte Erklärtext Erklären
kidsandscience-experimente Experiment Anweisen
kindersache-nachrichten Nachricht Berichten
klexikon Lexikonartikel Erklären
kuppelkucker-lexikon Lexikonartikel Erklären
kuppelkucker-nachrichten Nachricht Berichten
recht-kinderleicht Erklärtext Erklären
scroller Empfehlung Anweisen
simplyscience-experimente-jugendliche Experiment Anweisen
simplyscience-experimente-kinder Experiment Anweisen
simplyscience-wissen Erklärtext Erklären

Die Themen der Texte wurden mit Hilfe eines unüberwachten maschinellen Lernverfahrens ermittelt (‚unsupervised topic modeling‘, Silge und Robinson 2017). Das Verfahren wird ausführlicher hier beschrieben. In Tabelle 3 wird der Aufbau des KED zusammengefasst. Sie können die Diagramme durch Anklicken vergrößern. Die Wortwolken in Abbildung 3 (i) zeigen die wichtigsten Nomen jedes Themas. Schriftgröße und Farbe zeigen an, wie wichtig das Wort für das jeweilige Thema ist. Die Thementitel wurden nachträglich von den Korpusautoren hinzugefügt, um die Themen begrifflich zusammenzufassen.

Tabelle 3: Aufbau des KED im Überblick
(a) Adressaten im KED
Adressaten n Texte n Wörter
Erwachsene 523 302.235
Jugendliche 525 379.297
Kinder 5.793 2.121.922
Total 6.841 2.803.454
(b) Adressaten im KED
(c) Textsorten im KED
Textsorte n Texte n Wörter
Argumentation 55 90.363
Empfehlung 287 198.204
Erklärtext 915 477.896
Experiment 217 59.121
Lexikonartikel 4.424 1.735.711
Nachricht 943 242.159
Total 6.841 2.803.454
(d) Textsorten im KED
(e) Vertextungsstrategien im KED
Vertextungsstrategie n Texte n Wörter
Anweisen 251 69.522
Argumentieren 55 90.363
Berichten 943 242.159
Erklären 5.592 2.401.410
Total 6.841 2.803.454
(f) Vertextungsstrategien im KED
(g) Themen im KED
Thema n Texte n Wörter
Geschichte und Kultur 2.193 928.465
Gesundheit und Krankheit 588 317.010
Natur und Leben 1.880 843.224
Politik und Gesellschaft 2.180 714.755
Total 6.841 2.803.454
(h) Themen im KED
(i) Wichtige Nomen der Themen im KED

© Daniel Jach und Gunther Dietz 2025. All rights reserved. | Impressum

Literatur

Silge, Julia, und David Robinson. 2017. Text Mining with R: A Tidy Approach. Sebastopol, CA: O’Reilly. https://www.tidytextmining.com/.
Wöllstein, Angelika. 2016. Duden - Die Grammatik. 9., vollständig überarbeitete und aktualisierte Auflage. Berlin: Dudenverlag.

Fußnoten

  1. https://www.kuppelkucker.de, 07. November 2024.↩︎

  2. https://www.bpb.de, 07. November 2024.↩︎

  3. https://www.bzfe.de/, 15. Januar 2025.↩︎