Intern
Lehrstuhl für Grundschulpädagogik und Grundschuldidaktik

KI-basierte Bewertung der Textqualität narrativer Erstklasstexte (KITE)

Projektteam

Lehrstuhl für Grundschulpädagogik und Didaktik, Universität Würzburg:

Prof. Dr. Sanna Pohlmann-Rother, Dr. Caroline Theurer, Daniel Then

Projektlaufzeit

seit 2024

Kurzbeschreibung

Die Förderung der Schreibkompetenz ist ein bedeutendes Bildungsziel, welchem bereits in der Grundschule ein hoher Stellenwert zukommt. Als wichtiger Indikator für Schreibkompetenz gilt Textqualität, d.h. die individuelle Qualität der Schreibprodukte. Wie Textqualität konzeptualisiert und operationalisiert wird, variiert im Forschungsdiskurs jedoch stark (Blatt et al., 2009; Kruse et al., 2012; Pohlmann-Rother, Schoreit & Kürzinger, 2016; Müller & Busse, 2023). Gleichzeitig ist die Erfassung der Textqualität aufgrund der Vielschichtigkeit des Konstrukts ein komplexes Unterfangen (Becker-Mrotzek et al., 2014). Vor allem im Anfangsunterricht ist eine valide Bestimmung der Textqualität mit besonderen Hürden verbunden. So verläuft der Schriftspracherwerb individuell unterschiedlich und ist aufgrund der unausgelesenen Schülerschaft durch eine starke Heterogenität der Lernausgangslagen geprägt (Schründer-Lenzen, 2013). Es verwundert daher nicht, dass die Erfassung von Textqualität – insbesondere im Anfangsunterricht – in der Forschung bislang wenig fokussiert wurde (Kürzinger, 2017). In der Studie NaSch 1 („Narrative Schreibkompetenz in Klasse 1“; Pohlmann-Rother et al., 2016) wurde dieses Desiderat adressiert und Qualitätskriterien für diese Altersgruppe definiert. Mithilfe eines theoriegeleitet entwickelten Kriterienkatalogs wurden Rater:innen geschult, die 540 Texte von Erstklässler:innen hinsichtlich relevanter Qualitätskriterien (z.B. Wortschatz, Kohärenz, Anzahl Haupt-/Nebensätze, …) auswerteten. Mit diesem Vorgehen konnten objektive, reliable und valide Daten zur Textqualität im Anfangsunterricht generiert werden, die auch zur Analyse pädagogisch-didaktischer Unterrichtsgestaltung dienten (z.B. Pohlmann-Rother et al., 2020).

Mit Blick auf die Unterrichtspraxis stellt sich die Frage, wie eine solche kriteriengeleitete Auswertung pädagogisch sinnvoll und zeitökonomisch in den Unterrichtsalltag implementiert werden kann. Mit dem Ausbau und der breiten Verfügbarkeit von large language models ergeben sich neue Möglichkeiten der automatisierten Auswertung von Schüler:innenprodukten, die zu einer validen Erfassung der Textqualität sowie zur Entlastung der Lehrkräfte bei zeitintensiven Beurteilungsvorgängen beitragen können (Hussein et al., 2019). Wie Studien zeigen, besitzen Systeme zur automatisierten Auswertung von Schüler:innentexten das Potenzial, Lehrkräfte bei der Beurteilung von Schreibprodukten zu unterstützen (Lim et al., 2021) und dabei hohe Übereinstimmungen mit menschlichen Ratings zu erzielen (Alikaniotis et al., 2016). Unklar ist hingegen, inwieweit diese Befunde auf die Bewertung von Schreibprodukten aus dem Anfangsunterricht mit seinen spezifischen Voraussetzungen übertragen werden können. Mit der vorliegenden Studie wird deshalb untersucht, inwieweit und in welchen Bereichen ein KI-gestütztes System Potenziale bietet, um Textqualität von Erstklasstexten zu bewerten.

Zur Bearbeitung der Fragestellung werden die Daten und Materialien der NaSch1-Studie (Pohlmann-Rother et al., 2016) herangezogen. Zunächst wird die Qualität der Schüler:innentexte mithilfe eines  large language model holistisch eingeschätzt (vierstufige Skala: 1=geringe Qualität; 4=hohe Qualität). Dabei wird das large language model im Vorfeld mit den Auswertungskriterien und zentralen Informationen über das Datenmaterial (z.B. Alter der Schüler:innen, Textsorte) geprompted. Die Daten des menschlichen, kriteriengeleiteten Auswertungsprozesses sowie der holistischen Beurteilung werden anschließend als benchmark genutzt, um zu prüfen, ob und inwieweit die automatisieren Auswertungen mit den menschlichen Ratings vergleichbar sind. Darauf folgt eine kriteriengeleitete Auswertung der Textprodukte mittels KI, um im Abgleich mit den menschlichen Ratings spezifische Unterschiede in einzelnen Domänen der Textqualität transparent zu machen. Abschließend wird geprüft, wie und in wie vielen Schritten die Auswertung sukzessive geschärft werden kann, um die Übereinstimmung mit den menschlichen Ratings zu erhöhen.

Verwendete Literatur

Alikaniotis, D., Yannakoudakis, H. & Rei, M. (2016). Automatic Text Scoring Using Neural Networks. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 715–725.

Becker-Mrotzek, M., Grabowski, J., Jost, J., Knopp, M. & Linnemann, M. (2019). Adressatenorientierung und Kohärenzherstellung im Text. Zum Zusammenhang kognitiver und sprachlicher realisierter Teilkompetenzen von Schreibkompetenz. Didaktik Deutsch: Halbjahresschrift für die Didaktik der deutschen Sprache und Literatur, 19(37), 21–43.

Blatt, I., Ramm, G. & Voss, A. (2009). Modellierung und Messung der Textkompetenz im Rahmen einer Lernstandserhebung in Klasse 6 (2008). Didaktik Deutsch: Halbjahresschrift für die Didaktik der deutschen Sprache und Literatur, 14(26), 54–81.

Hussein, M. A., Hassan, H., & Nassef, M. (2019). Automated language essay scoring systems: A literature review. PeerJ Computer Science, 5, e208.

Kruse, N., Reichardt, A., Herrmann, M., Heinzel, F. & Lipowsky, F. (2021). Zur Qualität von Kindertexten. Entwicklung eines Bewertungsinstruments in der Grundschule. Didaktik Deutsch: Halbjahresschrift für die Didaktik der deutschen Sprache und Literatur, 17(32), 87–110.

Kürzinger, A. (2017). Unterrichtliche Determinanten der Schreibkompetenz in der Primarstufe – Wie wirken sich Aufgabenstellung und individuelle Lernunterstützung auf die Textqualität im Anfangsunterricht aus? FIS Bamberg.

Kürzinger, A., & Pohlmann-Rother, S. (2015). Möglichkeiten einer objektiven und reliablen Bestimmung von Textqualität im Anfangsunterricht. Methodisches Vorgehen und deskriptive Befunde aus dem Projekt NaSch1. Didaktik Deutsch : Halbjahresschrift für die Didaktik der deutschen Sprache und Literatur, 20(38), 60–79.

Lim, C. T., Bong, C. H., Wong, S. W., & Lee, K. N. (2021). A Comprehensive Review of Automated Essay Scoring (AES) Research and Development. Pertanika Journal of Science and Technology, 29(3), 1875–1899.

Müller, N., & Busse, V. (2023). Herausforderungen beim Verfassen von Texten in der Sekundarstufe – Eine differenzielle Untersuchung nach Migrationshintergrund und Familiensprachen. Zeitschrift für Erziehungswissenschaft, 26(4), 921–947.

Pohlmann-Rother, S., Kürzinger, A., & Lipowsky, F. (2020). Feedback im Anfangsunterricht der Grundschule – Eine Videostudie zum Feedbackverhalten von Lehrpersonen in der Domäne Schreiben. Zeitschrift für Erziehungswissenschaft, 23(3), 591–611.

Pohlmann-Rother, S., Schoreit, E., & Kürzinger, A. (2016). Schreibkompetenzen von Erstklässlern quantitativ-empirisch erfassen—Herausforderungen und Zugewinn eines analytisch-kriterialen Vorgehens gegenüber einer holistischen Bewertung. Journal for educational research online, 8(2), 107–135.

Schründer-Lenzen, A. (2013). Schriftspracherwerb. Springer Fachmedien Wiesbaden.