Forschung und Ressourcen
Hier stellen wir Ihnen die aktuelle und vergangene Forschung vor, an der die Angehörigen der Professur für Korpuslinguistik und Morphologie einen maßgeblichen Anteil haben.
Seitennavigation:
- Laufende Projekte
- Korpusressourcen
- Software und Datenformate sowie -infrastrukturen
- Beendete Projekte und Netzwerke
Vorgestellte Ressourcen in alphabetischer Reihenfolge: ANNIS, BeMaTaC, CALLIDUS, CLV, Daidalos, DDB (Deutsche diachrone Baumbank), empirikom, Falko, Hexatomic, KanDel, Kobalt-DaF (Korpus), Kobalt-DaF (Netzwerk), KOMPOST, LangBank, LAUDATIO, Märchenkorpus, Mind Research Repository, NoSta-D, RIDGES, RUEG, SaltNPepper, SFB 1412, <tiger2/>, WHiG
Laufende Projekte
Korpusressourcen
BeMaTaC |
Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung. |
DDBDeutsche Diachrone Baumbank |
Die DDB (Deutsche Diachrone Baumbank) ist ein kleines (ca. 8000 Token), syntaktisch tief annotiertes Korpus, bestehend aus drei Subkorpora unterschiedlicher Sprachstufen des Deutschen (Althochdeutsch, Mittelhochdeutsch, Frühneuhochdeutsch). Der Aufbau des Korpus orientiert sich im Wesentlichen am TIGER-Korpus, der größten frei erhältlichen Baumbank des Deutschen (www.ims.uni-stuttgart.de/projekte/TIGER/). DDB ist entstanden im Rahmen des vom Berliner Senat geförderten Projekts "Interdisziplinärer Forschungsverbund Linguistik – Bioinformatik zur Berechnung von Verwandtschaft und Abstammung". |
Falko ("Fehlerannotiertes Lernerkorpus") ist ein frei zugängliches Lernerkorpus des fortgeschrittenen schriftlichen Deutschen als Fremdsprache mit diversen L1-Hintergründen. |
|
KanDeL |
KanDeL (Kansas Developmental Learner Corpus) ist ein frei verfügbares longitudinales Lernerkorpus von Anfängern bis zu intermediären Lernern von Deutsch als Fremdsprache mit englischsprachlichem L1-Hintergrund, aufgebaut von Nina Vyatkina an der University of Kansas. |
Kobalt-DaF |
Das Kobalt-DaF-Korpus ist aus dem gleichnamigen Netzwerk hervorgegangen, nach der Vorlage des Falko-Essay-Korpus aufgebaut und beinhaltet drei Lernergruppen fortgeschrittener Lernender des Deutschen als Fremdsprache mit L1 Chinesisch, Schwedisch und Weißrussisch sowie ein muttersprachliches Vergleichskorpus. |
Märchenkorpus |
Das Märchenkorpus enthält die 201 Kinder- und Hausmärchen sowie die im 2. Band abgedruckten 10 Kinderlegenden in der von den Brüder Grimm herausgegeben Ausgabe letzter Hand. Das Korpus wurde für das Vertiefungsseminar "Dramapädagogik des Märchens: Linguistik, Didaktik und Theater" kompiliert und aufbereitet. Das Vertiefungsseminar fand im Sommersemester 2013 am Deutschen Seminar der Universität Tübingen unter Leitung von Maik Walter statt (vgl. Walter 2013 in Zeitschrift für Theaterpädagogik). |
NoSta-D |
NoSta-D bildet eine Korpussammlung, bestehend aus verschiedenen Nichtstandardvarietäten, mitsamt detailliert ausgearbeiteten Annotationsrichtlinien für diese Typen von Sprachdaten |
Das Projekt RIDGES (Register in Diachronic German Science) untersucht die Entstehung und Entwicklung der deutschen Wissenschaftssprache ab Mitte des 16. Jahrhunderts bis ins späte 19. Jahrhundert. |
Software und Datenformate sowie -infrastrukturen
|
ANNIS ist ein browserbasiertes, Open-Source Such- und Visualisierungswerkzeug für komplexe linguistische Mehrebenenkorpora. ANNIS steht für Annotation der Informationsstruktur und wurde ursprünglich im Rahmen des SFB 632 "Informationsstruktur" erstellt, wird nach dessen Ablauf aber ständig weiterentwickelt. |
Hexatomic |
Hexatomic ist eine minimalistische Infrastruktur für die nachhaltige Bereitstellugn von einem Mehrebenenannotation-Tool für linguistische Korpora. Gemeinschaftsprojekt mit der Friedrich-Schiller-Universität Jena. |
Laudatio |
LAUDATIO (Long term Access and Usage of Deeply Annotated Information) ist ein Projekt zur Entwicklung einer nachhaltigen und nutzerorientierten Speicherung von Forschungsdaten für die historische Linguistik. Das Projekt verfolgt das Ziel, für das Fachgebiet der historischen Linguistik eine Infrastruktur unter Einbeziehung eines Repository zu entwickeln, mit der fachspezifische Primärdaten in Form tief annotierter und komplex strukturierter Textkorpora erfasst, persistent gespeichert und jederzeit zugreifbar bereitgestellt werden. |
SaltNPepper stellt ein Framework für die Verarbeitung linguistischer Daten zur Verfügung und besteht aus dem Metamodell Salt und dem Konverterframework Pepper. Salt ist ein auf einem allgemeinen Graphen aufbauendes Metamodell zur Darstellung linguistischer Daten. Diese Daten werden dabei aufgrund ihrer strukturellen Eigenschaften als Knoten und Kanten repräsentiert. Die Beschränkung auf die strukturelle Repräsentation ermöglicht es mit Salt Daten aus sehr unterschiedlichen linguistischen Analysen, wie beispielsweise aus Diskursanalysen, syntaktischen Analysen, morphologischen Analysen etc. darzustellen. |
|
|
<tiger2/> ist ein standardkonformes XML-Format zur Serialisierung des SynAF Modells (ISO 24615:2010, ISO-Standard-Entwurf für syntaktische Annotation). <tiger2/> baut auf dem weit verbreiteten Format TigerXML (siehe hier) auf und bildet eine theorieunabhängige Repräsentation syntaktischer Strukturen. Mehr zum Format (Schemata, API usw.): Webseite |
Beendete Projekte und Netzwerke
CALLIDUS |
Das interdisziplinäre Forschungsprojekt CALLIDUS (Computer-Aided Language Learning: Lexikonerwerb im Lateinunterricht durch korpusgestützte Methoden) versucht die folgende These wissenschaftlich zu überprüfen: Eine Wortschatzarbeit, die auf der Basis eines tief annotierten elektronischen Textkorpus erfolgt, beeinflusst die Wortschatzkompetenz der Lateinlernenden positiver als die traditionelle Wortschatzarbeit im Lateinunterricht. |
|
In CLV (Crosslingual Language Varieties) werden verschiedene Transferphänomene untersucht, wobei in erster Linie Lerner- und Übersetzungsprache unter einem Dach betrachtet werden. Die untersuchten sprachlichen Zielsysteme umfassen Deutsch, Englisch und Hebräisch, die mit verschiedenen anderen Sprachsystemen interagieren (u.a. Arabisch, Französisch und Russisch). |
INDUS-Netzwerk |
Individualisiertes Sprachenlernen (als Gegenstück zu standardisierten Massenkursen) ist durch neuste Entwicklungen der Sprachtechnologie in greifbare Nähe gerückt. Somit lassen sich nicht nur die weit verbreiteten sondern auch "kleine" Sprachen abdecken. Es zeigt sich jedoch, dass die Einbettung der Technologien in reale Lernsituationen viele neue Fragen aufwirft, die nur durch eine viele Disziplinen überspannende Forschungsanstrengung beantwortet werden können. Das INDUS-Netzwerk bringt dazu Akteure aus den Disziplinen Sprachtechnologie, Linguistik, Bildungsforschung, Lernpsychologie, Pädagogische Psychologie, Spracherwerbsforschung und Didaktik des Sprachenlernens zusammen, die sich im Kontext ihrer spezifischen Expertise bereits mit dem Lernen von Sprachen auseinandergesetzt haben. Gemeinsam werden konkrete Forschungsfragen bearbeitet, die sich vor allem auf die Aspekte der Individualisierung beziehen, z. B. zur Modellierung des Lerners, zur Anpassung des Lehrmaterials an verschiedene Lernausgangslagen wie Muttersprache und Vorwissen und zur Generierung von hilfreichen Rückmeldungen. |
|
Ziel des Netzwerks, das durch die Deutsche Forschungsgemeinschaft (DFG) gefördert wird, ist es, Kompetenzen aus germanistischer Sprachwissenschaft, Computerlinguistik, Informatik und Psychologie zu bündeln, um anhand einer Reihe konkreter Forschungsfragen Vorschläge für Standards zur Aufbereitung von Sprachdaten aus der deutschsprachigen internetbasierten Kommunikation zu erarbeiten und Methoden und Werkzeuge für deren empirische computergestützte Analyse zu entwickeln. Die Ergebnisse werden in Publikationen dokumentiert, die Vorschläge für Standards und Verfahren sollen sukzessive online bereitgestellt werden. Webseite |
KOMPOST |
Mit Hilfe computerlinguistischer Methoden sollen Indikatoren für die Qualität von Schülertexten für die deutsche Sprache ermittelt und untersucht werden. Einen Schwerpunkt bildet die Veränderung der Werte der Qualitätsindikatoren über verschiedene Klassenstufen hinweg, d. h. die Entwicklung von beobachtbaren Ausprägungen von Textkompetenz im Längsschnitt. Als Ausgangsbasis stehen Aufsätze, Testergebnisse, Einstellungen und Informationen von Schülern aus der Hamburger Längsschnittuntersuchung KESS und weiteren Erhebungen zur Verfügung. Den Kern der Untersuchung bilden 8000 Aufsätze aus der 4., sowie 1000 Aufsätze aus der 8. Klasse, die in mehreren Dimensionen bewertet wurden. Sprachtestergebnisse derselben Schüler dienen als Außenkriterium zur Validierung der Textbewertungen und werden ebenfalls mit den Indikatoren in Beziehung gesetzt, um auf indirektem Weg zusätzliche Gesetzmäßigkeiten zu erkennen, die bei der bereits durchgeführten weniger objektiven und reliablen Bewertung durch menschliche Leser nicht gefunden werden können. Die eingesetzten Verfahren bilden den Ausgangspunkt für den Prototyp eines Onlinewerkzeugs, das im Dialog mit Schülern und Lehrern entwickelt wird und den Anwendern eine verständliche Rückmeldung übermittelt. Darüber hinaus sollen die Ergebnisse der Datenanalyse so aufbereitet werden, dass sie für die Weiterentwicklung von Kompetenzmodellen verwendet werden können. Webseite |
LangBank |
Das LangBank (Digital Infrastructure to Support the Study of Latin and Historical German) Projekt beschäftigt sich mit der Entwicklung einer Ressource für annotierte Texte in klassischem Latein und in historischen Stufen des Deutschen. Der Zugriff auf eine große Bandbreite vollständig annotierter Texte ist notwendig für geisteswissenschaftliche Forschung sowie für den Erwerb einer Sprache: Während es für Lehrer und Schüler unabdingbar ist, Texte zu finden, die sowohl dem Kompetenzniveau des Lernenden entsprechen, als auch der Illustration bestimmter sprachlicher Konstruktionen dienen, benötigen Forscher Zugriff auf eine Bandbreite von Texten, die unter dem Gesichtspunkt einer spezifischen Fragestellung ausgewählt wurden. In beiden Szenarien ist eine Textauswahl zu treffen im Hinblick auf, beispielsweise spezifische grammatische Konstruktionen, ein bestimmtes Vokabular oder orthographische Varianz. |
Mind Research Repository (MRR) |
Das Mind Research Repository (MRR) stellt einen Zugang zu wissenschaftlichen Publikationen und zugehörigen Daten sowie Analyseskripten und Plottingcode zur Verfügung. Das MRR hat sich aus dem Potsdam Mind Research Repository entwickelt.
|
Netzwerk Kobalt-DaF |
Kobalt-DaF ist ein DFG-gefördertes Netzwerk zur Annotation und Analyse argumentativer Lernertexte mit dem Ergebnis eines schriftlichen Korpus des fortgeschrittenen Deutschen als Fremdsprache und chinesischen, schwedischen und weißrussischen Lernerkohorten. |
Ziel dieses Projekts WHiG ("What's Hard in German?") ist es, diejenigen sprachlichen Strukturen im Deutschen ausfindig zu machen und zu untersuchen, die besondere Schwierigkeiten beim Erwerb des Deutschen als Fremdsprache bereiten. Solche Schwierigkeiten werden in der Regel durch Betrachtungen von Fehlern ermittelt (bspw. Borin & Prütz 2004 oder Westergren-Axelsson & Hahn 2001). Werden schwierige Strukturen von Lernern jedoch vermieden, scheitert dieser Ansatz. Daher vermuten wir, dass es für eine systematische Suche nach schwierigen Strukturen effektiver ist, deren relatives Vorkommen in Lernerdaten zu untersuchen. Webseite |