Ressourcen
Online-Angebote des Arbeitsbereichs: Ressourcen zur Linguistik und Sprachdidaktik
Linguistische Korpora, Datensets und Annotationsschemata:
- Das Dortmunder Chat-Korpus
- Die Mobile Communication Database 2 (MoCoDa 2)
- Guidelines für die Part-of-Speech-Annotation von Social-Media-Korpora
- TEI-Modelle für die Repräsentation von Korpora internetbasierter Kommunikation
- Das VVPPER-Datenset (Verb-Pronomen-Verschmelzungen in Chats)
OER-Ressourcen für die Hochschullehre und den Deutschunterricht:
Linguistische Korpora, Datensets und Annotationsschemata
Das Dortmunder Chat-Korpus
Das Dortmunder Chat-Korpus wurde in den Jahren 2002 bis 2005 von Michael Beißwenger und Angelika Storrer an Angelika Storrers Dortmunder Lehrstuhl für Linguistik der deutschen Sprache und Sprachdidaktik als eine Ressource für die Analyse sprachlicher Besonderheiten und sprachlicher Variation in der Chat-Kommunikation aufgebaut. Zum Zeitpunkt seiner Veröffentlichung im Jahr 2005 war es das erste linguistische Korpus zur internetbasierten Kommunikation im deutschsprachigen Raum.
Das Korpus umfasst eine okkasionell erhobene Stichprobe des Sprachgebrauchs in Webchats und IRC-Channels um die Jahrtausendwende und enthält ca. eine Million laufende Wortformen (Tokens) in 140.240 Nutzer-Postings, die sich auf 470 Chat-Interaktionen aus dem Zeitraum 1998-2005 verteilen. Bei der Zusammenstellung der Korpusdaten wurde Wert gelegt auf eine breite Streuung über Chat-Plattformen und situative Kontexte (Plauderchats, Chats in Lehr-/Lernkontexten, Beratungschats, moderierte Chats mit Politiker:innen u. a.).
Von 2005-2015 war das Korpus über eine Website an der TU Dortmund, von 2016-2022 über eine Website an der Universiotät Duisburg-Essen abrufbar. Nachfolgend können Sie das Korpus in zwei Varianten herunterladen: (a) in Form eines Web-Archivs, das die komplette Website einschließlich verschiedener Versionen des Korpus umfasst, (b) in Form der sog. ‚Release-Version‘ des Korpus:
- Web-Archiv (ZIP, 16,7 MB) der Korpus-Website auf dem Stand von 2016: umfasst verschiedene downloadbare Versionen des Korpus einschließlich einer browsbaren HTML-Version des Release-Korpus. Für die korrekte Darstellung der Website rufen Sie nach dem Entpacken des Archivs bitte die Seite index.html im Hauptverzeichnis auf.
- Release-Version (ZIP, 3,7 MB): Die Release-Version umfasst sämtliche Korpusdokumente, die öffentlich zur Verfügung gestellt werden konnten, in Form annotierter XML-Dokumente, eine 85-seitige Bestandsdokumentation sowie das Java-basierte Abfragewerkzeug STACCADo einschließlich des STACCADo-Handbuchs. Der Zugriff auf die Korpusdokumente erfolgt nach Entpacken der ZIP-Datei über das Abfragewerkzeug STACCADo, das aus dem Stammverzeichnis heraus gestartet werden kann. Die Suchergebnisse werden in Form von HTML-Dateien ausgegeben.
Eine um zusätzliche linguistische Annotationen erweiterte und in TEI repräsentierte Version des Korpus (‚Chat-Korpus 2.1‘) ) ist über die CLARIN-Repositories der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) und des Leibniz-Instituts für Deutsche Sprache (IDS), Mannheim abrufbar:
Eine Beschreibung des Dortmunder Chat-Korpus bietet das folgende Buchkapitel:
- Michael Beißwenger; Harald Lüngen (2022): Korpora internetbasierter Kommunikation. In: Michael Beißwenger, Lothar Lemnitzer & Carolin Müller-Spitzer (Hrsg.): Forschen in der Linguistik. Eine Methodeneinführung für das Germanistik-Studium. Paderborn: Brill|Fink (UTB 5711), 431-448.
Die Remodellierung 2021 (‚Chat-Korpus 2.1‘) ist in diesem Konferenzpaper beschrieben:
- Harald Lüngen; Michael Beißwenger; Axel Herold; Angelika Storrer (2016): Integrating corpora of computer-mediated communication in CLARIN-D: Results from the curation project ChatCorpus2CLARIN. In: Stefanie Dipper, Friedrich Neubarth & Heike Zinsmeister (eds.): Proceedings of the 13th Conference on Natural Language Processing (KONVENS 2016), 156-164. https://www.linguistics.rub.de/konvens16/pub/20_konvensproc.pdf
Die Mobile Communication Database 2 (MoCoDa 2)
Das Korpus Mobile Communication Database 2 wurde 2016/17 an der Universität DuisburgEssen konzipiert und wird von einem Projektteam an den Universitäten Duisburg-Essen, Hamburg und Münster betreut. In Kooperation mit der Firma lingdata wird das Korpus und die zugehörige Recherche- und Analyseschnittstelle kontinuierlich ausgebaut und weiterentwickelt. Zum Projektteam gehören Michael Beißwenger (UDE), Marcel Fladrich (UHH), Wolfgang Imo (UHH), Katharina König (WWU) und Evelyn Zielger (UDE).
Die Entwicklung und Weiterentwicklung des Korpus wurde 2017 aus Mitteln des Ministerium für Innovation, Wissenschaft und Forschung NRW (Projektlinie „Digitale Infrastrukturen in den Geisteswissenschaften“, Projektleitung: Beißwenger/Imo/Ziegler) und 2020 in Form eines Tandem-Fellowships für Innovationen in der digitalen Hochschullehre des Stifterverbands und des und Ministeriums für Kultur und Wissenschaft NRW (Projektleitung: Beißwenger/König) gefördert.
Das Korpus wird unter https://db.mocoda2.de/ online als Ressource für Forschung und Lehre zur Verfügung gestellt.
Referenzpublikation zum Korpus:
- Michael Beißwenger; Marcel Fladrich,; Wolfgasng Imo; Evelyn Ziegler (2020): Die Mobile Communication Database 2 (MoCoDa 2). In: Henning Lobin, Konstanze Marx & Axel Schmidt (Hrsg.): Deutsch in sozialen Medien: interaktiv, multimodal, vielfältig. Jahrbuch 2019 des Leibniz-Instituts für Deutsche Sprache. Berlin/Boston: de Gruyter, 349-352.
Guidelines für die Part-of-Speech-Annotation von Social-Media-Korpora
Die folgenden Guidelines wurden im Rahmen der GSCL Shared Task Task 'Automatic Linguistic Annotation of Computer-Mediated Communication / Social Media' (EmpiriST2015) entwickelt und zur Verfügung gestellt:
- Tagset und Richtlinie für das Part-of-Speech-Tagging von Sprachdaten aus Genres internetbasierter Kommunikation. [PDF|deutsch] [PDF|englisch]
- Richtlinie für die manuelle Tokenisierung von Sprachdaten aus Genres internetbasierter Kommunikation. [PDF|deutsch]
Eine ausführliche Beschreibung des Shared-Task-Projekts und seiner Ergebnisse bietet das folgende Conference Paper:
- Michael Beißwenger; Sabine, Bartsch; Stefan Evert; Kay-Michael Würzner (2016): EmpiriST 2015: A Shared Task on the Automatic Linguistic Annotation of Computer-Mediated Communication and Web Corpora. In: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task. Stroudsburg: Association for Computational Linguistics (ACL Anthology W16-2606), 44-56. https://www.aclweb.org/anthology/W16-2606.pdf
TEI-Modelle für die Repräsentation von Korpora internetbasierter Kommunikation
Im Zusammenhang mit der Special Interest Group ‚Computer-mediated Communication‘ der Text Encoding Initiative (TEI) und dem DFG-Netzwerk ‚Empirische Erforschung internetbasierter Kommunikation‘ wurden seit 2014 verschidene Varianten von TEI-Schemas (Customizations) für die XML-Repräsentation von Korpora internetbasierter Kommunikation entwickelt. Die aktuellste Version (‚CMC-core‘) sowie das für die Remodellierung des Dortmunder Chat-Korpus in TEI (2016) verwendete Schemaversion stehen unter den nachfolgenden Links im TEI-Wiki als TEI-ODD und RNG-Schema-Datei zur Verfügung:
Ausführliche linguistische (und texttechnologische) Begründungen der in den Schemas verfolgten Modellierungsprinzipien bieten die folgenden Artikel:
- Michael Beißwenger (2018): Internetbasierte Kommunikation und Korpuslinguistik: Repräsentation basaler Interaktionsformate in TEI. In: Henning Lobin; Roman Schneider; Andreas Witt (Hrsg.): Digitale Infrastrukturen für die germanistische Forschung. Berlin/New York: deGryuter 2018 (Germanistische Sprachwissenschaft um 2020, Bd. 6), 307-349. Open Access: https://doi.org/10.1515/9783110538663-015
- Michael Beißwenger; Harald Lüngen (2020): CMC-core: a schema for the representation of CMC corpora in TEI. In: Corpus 20 (Special issue "Traitements, standardisation et analyse des corpus de communication médiée par les réseaux sociaux", ed. by Céline Poudat, Ciara R. Wigham & Loïc Liégeois). Open Access: https://journals.openedition.org/corpus/455
Das VVPPER-Datenset (Verb-Pronomen-Verschmelzungen in Chats)
Das VVPPER-Datenset (2017) umfasst 230 Belege für Verb-Pronomen-Verschmelzungen aus deutschsprachigen Chats mit Part-of-speech-Annotationen (Standford-Tagger). Es istüber den obigen Link abrufbar über das CLARIN-Repository des Leibniz-Instituts für Deutsche Sprache (IDS), Mannheim. Eine Beschreibung des Datensets findet sich auf den Seiten 204-206 des folgenden Buchkapitels:
- Michael Beißwenger; Tobias Horsmann; Torsten Zesch (2017): Part-of-speech Tagging for Corpora of Computer-mediated Communication: A Case Study on Finding Rare Phenomena. In: Darja Fišer; Michael Beißwenger (Eds.): Investigating Computer-Mediated Communication: Corpus-Based Approaches to Language in the Digital World. Ljubljana: Ljubljana University Press (Translation Studies and Applied Linguistics), 192-219. Open Access: https://ebooks.uni-lj.si/zalozbaul//catalog/view/4/2/9-1
OER-Ressourcen für die Hochschullehre und den Deutschunterricht
OER-Kurs "Sprache in der internetbasierten Kommunikation"
Dieser Kurs mit der Workload eines einsemestrigen Seminars bietet Ihnen die Möglichkeit, sich eigenständig oder im Rahmen einer Lehrveranstaltung Grundlagenwissen zum linguistischen Forschungsfeld Internetbasierte Kommunikation zu erarbeiten. Dabei stehen zum einen die sprachlichen und kommunikativen Besonderheiten internetbasierter Kommunikation und die Frage ihrer Einordnung in den Bereich der geschriebenen und gesprochenen Sprache, des sprachlichen Handelns in Interaktion und mit Texten im Fokus. Zum anderen vermittelt der Kurs Basiskonzepte und Kompetenzen, die Sie für die sprachdatengestützte Analyse internetbasierter Kommunikation unter Nutzung linguistischer Korpora benötigen. Anhand von Fallstudien aus der linguistischen Literatur erhalten Sie Einblick, wie wissenschaftliche Fragestellungen in Bezug auf die Sprachverwendung in Chats, Foren, Messaging-Apps und sozialen Netzwerken empirisch untersucht werden können und wie in der linguistischen Forschung digitale Sammlungen von Sprachdaten (sog. Korpora) eingesetzt werden, um auf empirischer Grundlage sprachliche Praktiken in der internetbasieren Kommunikation zu beschreiben.
Der OER-Kurs wurde von Michael Beißwenger und Sarah Steinsiek im Rahmen des Verbundprojekts digGer - Open Education in der Germanistik entwickelt, das 2021-2023 von der DH.NRW gefördert wurde.
Zugang zum OER-Kurs:
- Moodle-Showroom des kompletten Kurses: https://moodle.uni-due.de/course/view.php?id=46355 (für UDE-externe Nutzer:innen zugänglich über die Option "Anmeldung als Gast")
- Download des Kurses als OER via Twillo (für die Installation in eigene Moodle-Plattformen): https://www.twillo.de/edu-sharing/components/render/27949435-924d-4653-9972-06be7f0d5f33
Moodle-Erweiterung TEXTLABOR für kooperative Textarbeit
Moodle-Erweiterung Textlabor (PDF-Annotationen BETA): Lese- und Annotationsumgebung für digital bereitgestellte Texte; einbindbar als Lernaktivität in die Lernplattform Moodle, Versionen 3.2, 3.3, 3.4, 3.5, 3.6 oder 3.7:
- Download des Programms als Open Educational Resource
- Digitales Lernmodul zu didaktischen Einsatzmöglichkeiten des Textlabors (OER-Modul auf der Plattform digiLL)
- Beispiel für eine Aufgabenstellung aus einem Germanistik-Seminar/Bachelorphase (Erarbeitung eines linguistischen Fachtextes)
Eine Erläuterung der Funktionen der Moodle-Erweiterung und eine Darstellung verschiedener didaktischer Konzepte für die Arbeit mit dem Textlabor bietet das folgende OER-Modul im Portal des Universitätsverbunds digiLL:
- Kooperative Texterschließung mit TEXTLABOR (Autor:innen: Michael Beißwenger & Veronika Burovikhina)
Eine Beschreibung verschiedener didaktischer Möglichkeiten der Arbeit mit dem TEXTLABOR in Seminaren der Germanistik sowie der damit gemachten Erfahrungen bietet der folgende Artikel:
- Michael Beißwenger; Liane Schüller; Veronika Burovikhina (2020): Textbegegnungen im sozialen Medium: Erfahrungen mit einem mediendidaktischen Konzept für die kooperative Erarbeitung voraussetzungs- und aspektreicher Texte in germanistischen Seminaren. In: Katharina Staubach (Hrsg.): Multimodale Kommunikation in den Hypermedien und Deutschunterricht. Theoretische, methodische und unterrichtspraktische Zugänge. Baltmannsweiler: Schneider Verlag Hohengehren, 81-116.
Das online-gestützte Planspiel ORTHO & GRAF
Download der Spielumgebung und der didaktischen Materialien:
- Download der Spielumgebung (Hochschulversion) und des Handbuchs für Lehrende
- Download der Spielumgebung (Schulversion) inklusive aller für den Einsatz im Deutschunterricht benötigten Zusatzmaterialien
Eine Erläuterung des medien- und rechtschreibdidaktischen Konzepts sowie die Dokumentation eines Unterrichtsprojekts in der Klassenstufe 7 bietet das folgende OER-Modul im Portal des Universitätsverbunds digiLL:
- Rechtschreibermittlungen im Flipped Classroom: Das online-gestützte Planspiel ORTHO & GRAF (Autor:innen: Michael Beißwenger, Lena Meyer, Hanna Hoebink & Laura-Marie Schmidt)
Eine Begründung der medien- und rechtschreibdidaktischen Konzeption, eine Beschreibung der Materialien und des Unterrichtsprojekts in der Klassenstufe 7 bietet der folgende Artikel:
- Michael Beißwenger; Lena Meyer (2020): Zum Lernen verlocken: Erfahrungen mit einem online-gestützten Planspiel zur Reflexion über Rechtschreibung und Grammatik in der Sekundarstufe I. In: Osnabrücker Beiträge zur Sprachtheorie 96, 135-168. Open Access: https://doi.org/10.17185/duepublico/74432