Aufbau
Überblick
Das KED umfasst gegenwärtig 6.841 Texte aus 14 verschiedenen Internetquellen. Tabelle 1 fasst das Korpus zusammen.
KED | |
---|---|
Quellen: n | 14 |
Texte: n | 6.841 |
Tokens: n | 2.803.454 |
Tokens/Text: m (se) | 409,8 (3,57) |
Sätze: n | 224.042 |
Sätze/Text: m (se) | 32,75 (0,31) |
Teilkorpora
Die Texte im Korpus sind mit Adressatengruppe, Textsorte, Vertextungsstrategie und Thema annotiert. Die Adressatengruppe bezeichnet die Gruppe von Lesern, für die der Text in erster Linie geschrieben wurde. Die Adressatengruppe eines Textes ergibt sich in der Regel aus der Internetquelle. Häufig wird dort explizit auf die intendierte Adressatengruppe hingewiesen. So richten sich Texte der Internetseite Kuppelkucker beispielsweise an Kinder gerichtet1, Texte aus der Online-Ausgabe des Fluter-Magazins, herausgegeben von der Bundeszentrale für politische Bildung, an eine jugendliche Leserschaft2. Textsorte und Vertextungsstrategie wurden den Texten nach subjektiver Einschätzung der Korpusautoren zugeordnet, abhängig von ihrer Quelle. Teilweise wurden Texte einer Quelle weiter unterteilt. Von der Webseite der Bundeszentrale für politische Bildung beispielsweise sind sowohl Erklärtexte aus der einfach POLITIK-Subdomäne3 als auch Lexikoneinträge aus dem einfach POLITIK: Lexikon4 im KED enthalten. Die Themen der Texte wurden hingegen mit Hilfe von einem unüberwachtem maschinellen Lernverfahren ermittelt (‚topic modeling‘, Silge und Robinson 2017). Das Verfahren wird ausführlicher hier beschrieben. In Tabelle 2 wird der Aufbau des KED zusammengefasst. Sie können die Diagramme durch Anklicken vergrößern. Die Wortwolken in Abbildung 2 (i) zeigen die wichtigsten Nomen jedes Themas. Schriftgröße und Farbe zeigen an, wie wichtig das Wort für das jeweilige Thema ist. Die Titel wurden nachträglich von den Korpusautoren hinzugefügt, um die Themen begrifflich zusammenzufassen.
Adressaten | n Texte | n Wörter |
---|---|---|
Erwachsene | 523 | 302.235 |
Jugendliche | 525 | 379.297 |
Kinder | 5.793 | 2.121.922 |
Total | 6.841 | 2.803.454 |
Textsorte | n Texte | n Wörter |
---|---|---|
Argumentation | 55 | 90.363 |
Empfehlung | 287 | 198.204 |
Erklärtext | 915 | 477.896 |
Experiment | 217 | 59.121 |
Lexikonartikel | 4.424 | 1.735.711 |
Nachricht | 943 | 242.159 |
Total | 6.841 | 2.803.454 |
Vertextungsstrategie | n Texte | n Wörter |
---|---|---|
Anweisen | 251 | 69.522 |
Argumentieren | 55 | 90.363 |
Berichten | 943 | 242.159 |
Erklären | 5.592 | 2.401.410 |
Total | 6.841 | 2.803.454 |
Thema | n Texte | n Wörter |
---|---|---|
Geschichte und Kultur | 2.193 | 928.465 |
Gesundheit und Krankheit | 588 | 317.010 |
Natur und Leben | 1.880 | 843.224 |
Politik und Gesellschaft | 2.180 | 714.755 |
Total | 6.841 | 2.803.454 |
© Daniel Jach und Gunther Dietz 2024. All rights reserved. | Impressum
Literatur
Fußnoten
https://www.kuppelkucker.de, 07. November 2024.↩︎
https://www.bpb.de, 07. November 2024.↩︎
https://www.bpb.de/themen/politisches-system/politik-einfach-fuer-alle/, 07. November 2024.↩︎
https://www.bpb.de/kurz-knapp/lexika/lexikon-in-einfacher-sprache/, 07. November 2024.↩︎