Aufbau

Überblick

Das KED umfasst gegenwärtig 6.841 Texte aus 14 verschiedenen Internetquellen. Tabelle 1 fasst das Korpus zusammen.

Tabelle 1: KED im Überblick
KED
Quellen: n 14
Texte: n 6.841
Tokens: n 2.803.454
Tokens/Text: m (se) 409,8 (3,57)
Sätze: n 224.042
Sätze/Text: m (se) 32,75 (0,31)

Teilkorpora

Die Texte im Korpus sind mit Adressatengruppe, Textsorte, Vertextungsstrategie und Thema annotiert. Die Adressatengruppe bezeichnet die Gruppe von Lesern, für die der Text in erster Linie geschrieben wurde. Die Adressatengruppe eines Textes ergibt sich in der Regel aus der Internetquelle. Häufig wird dort explizit auf die intendierte Adressatengruppe hingewiesen. So richten sich Texte der Internetseite Kuppelkucker beispielsweise an Kinder gerichtet1, Texte aus der Online-Ausgabe des Fluter-Magazins, herausgegeben von der Bundeszentrale für politische Bildung, an eine jugendliche Leserschaft2. Textsorte und Vertextungsstrategie wurden den Texten nach subjektiver Einschätzung der Korpusautoren zugeordnet, abhängig von ihrer Quelle. Teilweise wurden Texte einer Quelle weiter unterteilt. Von der Webseite der Bundeszentrale für politische Bildung beispielsweise sind sowohl Erklärtexte aus der einfach POLITIK-Subdomäne3 als auch Lexikoneinträge aus dem einfach POLITIK: Lexikon4 im KED enthalten. Die Themen der Texte wurden hingegen mit Hilfe von einem unüberwachtem maschinellen Lernverfahren ermittelt (‚topic modeling‘, Silge und Robinson 2017). Das Verfahren wird ausführlicher hier beschrieben. In Tabelle 2 wird der Aufbau des KED zusammengefasst. Sie können die Diagramme durch Anklicken vergrößern. Die Wortwolken in Abbildung 2 (i) zeigen die wichtigsten Nomen jedes Themas. Schriftgröße und Farbe zeigen an, wie wichtig das Wort für das jeweilige Thema ist. Die Titel wurden nachträglich von den Korpusautoren hinzugefügt, um die Themen begrifflich zusammenzufassen.

Tabelle 2: Aufbau des KED im Überblick
(a) Adressaten im KED
Adressaten n Texte n Wörter
Erwachsene 523 302.235
Jugendliche 525 379.297
Kinder 5.793 2.121.922
Total 6.841 2.803.454
(b) Adressaten im KED
(c) Textsorten im KED
Textsorte n Texte n Wörter
Argumentation 55 90.363
Empfehlung 287 198.204
Erklärtext 915 477.896
Experiment 217 59.121
Lexikonartikel 4.424 1.735.711
Nachricht 943 242.159
Total 6.841 2.803.454
(d) Textsorten im KED
(e) Vertextungsstrategien im KED
Vertextungsstrategie n Texte n Wörter
Anweisen 251 69.522
Argumentieren 55 90.363
Berichten 943 242.159
Erklären 5.592 2.401.410
Total 6.841 2.803.454
(f) Vertextungsstrategien im KED
(g) Themen im KED
Thema n Texte n Wörter
Geschichte und Kultur 2.193 928.465
Gesundheit und Krankheit 588 317.010
Natur und Leben 1.880 843.224
Politik und Gesellschaft 2.180 714.755
Total 6.841 2.803.454
(h) Themen im KED
(i) Wichtige Nomen der Themen im KED

© Daniel Jach und Gunther Dietz 2024. All rights reserved. | Impressum

Literatur

Silge, Julia, und David Robinson. 2017. Text Mining with R: A Tidy Approach. Sebastopol, CA: O’Reilly. https://www.tidytextmining.com/.

Fußnoten

  1. https://www.kuppelkucker.de, 07. November 2024.↩︎

  2. https://www.bpb.de, 07. November 2024.↩︎

  3. https://www.bpb.de/themen/politisches-system/politik-einfach-fuer-alle/, 07. November 2024.↩︎

  4. https://www.bpb.de/kurz-knapp/lexika/lexikon-in-einfacher-sprache/, 07. November 2024.↩︎