Forschung und Ressourcen

Korpuslinguistik und Morphologie | Forschung und Ressourcen

Forschung und Ressourcen

Hier stellen wir Ihnen die aktuelle und vergangene Forschung vor, an der die Angehörigen der Professur für Korpuslinguistik und Morphologie einen maßgeblichen Anteil haben.

Seitennavigation:

Laufende Projekte
Korpusressourcen
Software und Datenformate sowie -infrastrukturen
Beendete Projekte und Netzwerke

Vorgestellte Ressourcen in alphabetischer Reihenfolge: ANNIS, BeMaTaC, CALLIDUS, CLV, Daidalos, DDB (Deutsche diachrone Baumbank), empirikom, Falko, Hexatomic, KanDel, Kobalt-DaF (Korpus), Kobalt-DaF (Netzwerk), KOMPOST, LangBank, LAUDATIO, Märchenkorpus, Mind Research Repository, NoSta-D, RIDGES, RUEG, SaltNPepper, SFB 1412, TextPloring, <tiger2/>, WHiG

Laufende Projekte

	Das Daidalos-Projekt wird von der DFG für 3 Jahre gefördert, um eine Forschungsinfrastruktur aufzubauen, die einen niedrigschwelligen Einstieg in digitale Forschungsmethoden der Klassischen Philologie ermöglichen soll. Ziel ist es, dass alle, die an lateinischen oder griechischen Texten digitalgestützt forschen wollen, diese Forschung an ihrem eigenen Korpus mithilfe der Software durchführen können. Besonderes Augenmerk der Infrastruktur liegt zusätzlich auf der Vermittlung dieser Methoden, so dass User sich softwaregestützt selbst darin fortbilden können. Webseite
	Das Projekt "Research Unit Emerging Grammars" (RUEG) untersucht die grammatischen Systeme und Sprachgebrauchsressourcen bei bilingualen Sprecher*innen aus Familien mit Migrationshintergrund, sog. "Heritage-Sprecherinnen und -sprechern". Webseite
Sonderforschungsbereich 1412 "Register"	Der SFB 1412 Register: Language-Users’ Knowledge of Situational-Functional Variation untersucht Aspekte des Registerwissens von Sprecher*innen einer Sprache. Webseite
TextPloring	Ziel des TextPloring-Projekts ist es, das in der historischen Sprachwissenschaft bereits etablierte LAUDATIO-Repository so zu erweitern und zu konsolidieren, dass auch andere geisteswissenschaftliche Fächer es zur umfassenden Erschließung und (Nach-)Nutzung historischer Textquellen einsetzen können. Am Beispiel der digitalen Geschichtswissenschaften soll demonstriert werden, wie ein ursprünglich fachspezifisches Repositorium mit seinen Werkzeugen im Hinblick auf die speziellen Anforderungen anderer Fächer ausgebaut werden kann. Webseite

Korpusressourcen

BeMaTaC

Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung.

Webseite

BeMaTaC L1-Korpus im ANNIS-Suchinterface

DDB

Deutsche Diachrone Baumbank

Die DDB (Deutsche Diachrone Baumbank) ist ein kleines (ca. 8000 Token), syntaktisch tief annotiertes Korpus, bestehend aus drei Subkorpora unterschiedlicher Sprachstufen des Deutschen (Althochdeutsch, Mittelhochdeutsch, Frühneuhochdeutsch). Der Aufbau des Korpus orientiert sich im Wesentlichen am TIGER-Korpus, der größten frei erhältlichen Baumbank des Deutschen (www.ims.uni-stuttgart.de/projekte/TIGER/). DDB ist entstanden im Rahmen des vom Berliner Senat geförderten Projekts "Interdisziplinärer Forschungsverbund Linguistik – Bioinformatik zur Berechnung von Verwandtschaft und Abstammung".
Webseite
Alle drei Subkorpora im ANNIS-Suchinterface

Dulko

Deutsch-ungarisches Lernerkorpus

Webseite (Beschreibung)
DulkoEssay-Korpus im ANNIS-Suchinterface
DulkoTranslation-Korpus im ANNIS-Suchinterface

Falko ("Fehlerannotiertes Lernerkorpus") ist ein frei zugängliches Lernerkorpus des fortgeschrittenen schriftlichen Deutschen als Fremdsprache mit diversen L1-Hintergründen.

Webseite

L2-Essay-Korpus im ANNIS-Suchinterface

KanDeL

KanDeL (Kansas Developmental Learner Corpus) ist ein frei verfügbares longitudinales Lernerkorpus von Anfängern bis zu intermediären Lernern von Deutsch als Fremdsprache mit englischsprachlichem L1-Hintergrund, aufgebaut von Nina Vyatkina an der University of Kansas.

Webseite

KanDel "cross cohort" im ANNIS-Suchinterface

Kobalt-DaF

Das Kobalt-DaF-Korpus ist aus dem gleichnamigen Netzwerk hervorgegangen, nach der Vorlage des Falko-Essay-Korpus aufgebaut und beinhaltet drei Lernergruppen fortgeschrittener Lernender des Deutschen als Fremdsprache mit L1 Chinesisch, Schwedisch und Weißrussisch sowie ein muttersprachliches Vergleichskorpus.

Kobalt-DaF-L2-Subkorpus im ANNIS-Suchinterface

Märchenkorpus

Das Märchenkorpus enthält die 201 Kinder- und Hausmärchen sowie die im 2. Band abgedruckten 10 Kinderlegenden in der von den Brüder Grimm herausgegeben Ausgabe letzter Hand. Das Korpus wurde für das Vertiefungsseminar "Dramapädagogik des Märchens: Linguistik, Didaktik und Theater" kompiliert und aufbereitet. Das Vertiefungsseminar fand im Sommersemester 2013 am Deutschen Seminar der Universität Tübingen unter Leitung von Maik Walter statt (vgl. Walter 2013 in Zeitschrift für Theaterpädagogik).

Märchenkorpus im ANNIS-Suchinterface

NoSta-D

NoSta-D bildet eine Korpussammlung, bestehend aus verschiedenen Nichtstandardvarietäten, mitsamt detailliert ausgearbeiteten Annotationsrichtlinien für diese Typen von Sprachdaten

Webseite

Alle NoSta-D-Korpora im ANNIS-Suchinterface

Das Projekt RIDGES (Register in Diachronic German Science) untersucht die Entstehung und Entwicklung der deutschen Wissenschaftssprache ab Mitte des 16. Jahrhunderts bis ins späte 19. Jahrhundert.

Webseite

RIDGES-Korpus im ANNIS-Suchinterface

Software und Datenformate sowie -infrastrukturen

	ANNIS ist ein browserbasiertes, Open-Source Such- und Visualisierungswerkzeug für komplexe linguistische Mehrebenenkorpora. ANNIS steht für Annotation der Informationsstruktur und wurde ursprünglich im Rahmen des SFB 632 "Informationsstruktur" erstellt, wird nach dessen Ablauf aber ständig weiterentwickelt. ANNIS basiert nicht auf einer bestimmten linguistischen Theorie und kann somit unterschiedlichste Korpora durchsuchen und darstellen. So können sprachliche Phänomene unterschiedlicher Ebenen gemeinsam dargestellt und durchsucht werden wie beispielsweise Syntax, Semantik, Morphologie, Prosodie, Referentialität und Lexik. Mit ANNIS ist es ebenfalls möglich multimediale Daten wie Audio- und Videodateien einzubinden. Neben einer serverbasierten Variante bietet ANNIS mit dem ANNIS-Kickstarter auch eine Desktopvariante an. Distributionen und weitere Informationen zu ANNIS und den verwandten Programmen finden Sie hier. Ein allgemeine ANNIS-Instanz mit sprachübergreifenden Korpusressourcen finden Sie hier.
Hexatomic	Hexatomic ist eine minimalistische Infrastruktur für die nachhaltige Bereitstellugn von einem Mehrebenenannotation-Tool für linguistische Korpora. Gemeinschaftsprojekt mit der Friedrich-Schiller-Universität Jena. Webseite
Laudatio	LAUDATIO (Long term Access and Usage of Deeply Annotated Information) ist ein Projekt zur Entwicklung einer nachhaltigen und nutzerorientierten Speicherung von Forschungsdaten für die historische Linguistik. Das Projekt verfolgt das Ziel, für das Fachgebiet der historischen Linguistik eine Infrastruktur unter Einbeziehung eines Repository zu entwickeln, mit der fachspezifische Primärdaten in Form tief annotierter und komplex strukturierter Textkorpora erfasst, persistent gespeichert und jederzeit zugreifbar bereitgestellt werden. Webseite
	SaltNPepper stellt ein Framework für die Verarbeitung linguistischer Daten zur Verfügung und besteht aus dem Metamodell Salt und dem Konverterframework Pepper. Salt ist ein auf einem allgemeinen Graphen aufbauendes Metamodell zur Darstellung linguistischer Daten. Diese Daten werden dabei aufgrund ihrer strukturellen Eigenschaften als Knoten und Kanten repräsentiert. Die Beschränkung auf die strukturelle Repräsentation ermöglicht es mit Salt Daten aus sehr unterschiedlichen linguistischen Analysen, wie beispielsweise aus Diskursanalysen, syntaktischen Analysen, morphologischen Analysen etc. darzustellen. Das Konverterframework Pepper basiert auf dem Metamodell Salt und dient der universellen Konvertierung verschiedener Datenformate ineinander. Pepper zerlegt den Konvertierungsprozess in einzelne Schritte und ist sehr modular aufgebaut. Dadurch ist es möglich durch einen Plug-in-Mechanismus weitere Formate in den Konvertierungsprozess einzubinden.SaltNPepper stellt zwei leistungsfähige Frameworks zur Verfügung für die Bearbeitung von linguistisch annotierten Daten. Es wurde an der Humboldt-Universität zu Berlin als Open-Source-Projekt entwickelt. http://corpus-tools.org/salt http://corpus-tools.org/pepper
	<tiger2/> ist ein standardkonformes XML-Format zur Serialisierung des SynAF Modells (ISO 24615:2010, ISO-Standard-Entwurf für syntaktische Annotation). <tiger2/> baut auf dem weit verbreiteten Format TigerXML (siehe hier) auf und bildet eine theorieunabhängige Repräsentation syntaktischer Strukturen. Mehr zum Format (Schemata, API usw.): Webseite

Beendete Projekte und Netzwerke

CALLIDUS	Das interdisziplinäre Forschungsprojekt CALLIDUS (Computer-Aided Language Learning: Lexikonerwerb im Lateinunterricht durch korpusgestützte Methoden) versucht die folgende These wissenschaftlich zu überprüfen: Eine Wortschatzarbeit, die auf der Basis eines tief annotierten elektronischen Textkorpus erfolgt, beeinflusst die Wortschatzkompetenz der Lateinlernenden positiver als die traditionelle Wortschatzarbeit im Lateinunterricht. Webseite
	In CLV (Crosslingual Language Varieties) werden verschiedene Transferphänomene untersucht, wobei in erster Linie Lerner- und Übersetzungsprache unter einem Dach betrachtet werden. Die untersuchten sprachlichen Zielsysteme umfassen Deutsch, Englisch und Hebräisch, die mit verschiedenen anderen Sprachsystemen interagieren (u.a. Arabisch, Französisch und Russisch). Webseite
INDUS-Netzwerk	Individualisiertes Sprachenlernen (als Gegenstück zu standardisierten Massenkursen) ist durch neuste Entwicklungen der Sprachtechnologie in greifbare Nähe gerückt. Somit lassen sich nicht nur die weit verbreiteten sondern auch "kleine" Sprachen abdecken. Es zeigt sich jedoch, dass die Einbettung der Technologien in reale Lernsituationen viele neue Fragen aufwirft, die nur durch eine viele Disziplinen überspannende Forschungsanstrengung beantwortet werden können. Das INDUS-Netzwerk bringt dazu Akteure aus den Disziplinen Sprachtechnologie, Linguistik, Bildungsforschung, Lernpsychologie, Pädagogische Psychologie, Spracherwerbsforschung und Didaktik des Sprachenlernens zusammen, die sich im Kontext ihrer spezifischen Expertise bereits mit dem Lernen von Sprachen auseinandergesetzt haben. Gemeinsam werden konkrete Forschungsfragen bearbeitet, die sich vor allem auf die Aspekte der Individualisierung beziehen, z. B. zur Modellierung des Lerners, zur Anpassung des Lehrmaterials an verschiedene Lernausgangslagen wie Muttersprache und Vorwissen und zur Generierung von hilfreichen Rückmeldungen. Webseite
	Ziel des Netzwerks, das durch die Deutsche Forschungsgemeinschaft (DFG) gefördert wird, ist es, Kompetenzen aus germanistischer Sprachwissenschaft, Computerlinguistik, Informatik und Psychologie zu bündeln, um anhand einer Reihe konkreter Forschungsfragen Vorschläge für Standards zur Aufbereitung von Sprachdaten aus der deutschsprachigen internetbasierten Kommunikation zu erarbeiten und Methoden und Werkzeuge für deren empirische computergestützte Analyse zu entwickeln. Die Ergebnisse werden in Publikationen dokumentiert, die Vorschläge für Standards und Verfahren sollen sukzessive online bereitgestellt werden. Webseite
KOMPOST	Mit Hilfe computerlinguistischer Methoden sollen Indikatoren für die Qualität von Schülertexten für die deutsche Sprache ermittelt und untersucht werden. Einen Schwerpunkt bildet die Veränderung der Werte der Qualitätsindikatoren über verschiedene Klassenstufen hinweg, d. h. die Entwicklung von beobachtbaren Ausprägungen von Textkompetenz im Längsschnitt. Als Ausgangsbasis stehen Aufsätze, Testergebnisse, Einstellungen und Informationen von Schülern aus der Hamburger Längsschnittuntersuchung KESS und weiteren Erhebungen zur Verfügung. Den Kern der Untersuchung bilden 8000 Aufsätze aus der 4., sowie 1000 Aufsätze aus der 8. Klasse, die in mehreren Dimensionen bewertet wurden. Sprachtestergebnisse derselben Schüler dienen als Außenkriterium zur Validierung der Textbewertungen und werden ebenfalls mit den Indikatoren in Beziehung gesetzt, um auf indirektem Weg zusätzliche Gesetzmäßigkeiten zu erkennen, die bei der bereits durchgeführten weniger objektiven und reliablen Bewertung durch menschliche Leser nicht gefunden werden können. Die eingesetzten Verfahren bilden den Ausgangspunkt für den Prototyp eines Onlinewerkzeugs, das im Dialog mit Schülern und Lehrern entwickelt wird und den Anwendern eine verständliche Rückmeldung übermittelt. Darüber hinaus sollen die Ergebnisse der Datenanalyse so aufbereitet werden, dass sie für die Weiterentwicklung von Kompetenzmodellen verwendet werden können. Webseite
LangBank	Das LangBank (Digital Infrastructure to Support the Study of Latin and Historical German) Projekt beschäftigt sich mit der Entwicklung einer Ressource für annotierte Texte in klassischem Latein und in historischen Stufen des Deutschen. Der Zugriff auf eine große Bandbreite vollständig annotierter Texte ist notwendig für geisteswissenschaftliche Forschung sowie für den Erwerb einer Sprache: Während es für Lehrer und Schüler unabdingbar ist, Texte zu finden, die sowohl dem Kompetenzniveau des Lernenden entsprechen, als auch der Illustration bestimmter sprachlicher Konstruktionen dienen, benötigen Forscher Zugriff auf eine Bandbreite von Texten, die unter dem Gesichtspunkt einer spezifischen Fragestellung ausgewählt wurden. In beiden Szenarien ist eine Textauswahl zu treffen im Hinblick auf, beispielsweise spezifische grammatische Konstruktionen, ein bestimmtes Vokabular oder orthographische Varianz. Webseite
Mind Research Repository (MRR)	Das Mind Research Repository (MRR) stellt einen Zugang zu wissenschaftlichen Publikationen und zugehörigen Daten sowie Analyseskripten und Plottingcode zur Verfügung. Das MRR hat sich aus dem Potsdam Mind Research Repository entwickelt. Die Kombination eines Papiers mit zugehörigen Daten und Skripten nennen wir "Paper Package". Die Hauptziele des Mind Research Repository sind folgende: Dokumentation von Daten und (statistischen) Analysen von Veröffentlichungen in einem öffentlichen Forum Wissenschaftler einzuladen (a) Analysen/Plots zu reproduzieren (b) alternative Analysemethoden anzuwenden und eventuell zu publizieren oder (c) Analyseskripte an die eigenen Daten anzupassen Leser in die Lage zu versetzen, den Autoren Rückmeldung zu ihren Skripten zu geben, sowohl zu nötigen oder möglichen Verbesserungen als auch zu Fehlern Als Seite für Ergebnisse zu dienen, die nicht veröffentlicht wurden weil sie andere als die erwarteten Ergebisse geliefert haben (unter der Annahme das es keine technischen oder anderen offensichtlichen Gründe hierfür gibt). Solche Ergebnisse im Kontext von erfolgreich verlaufenen Experimenten zu veröffentlichen könnte Kollegen zu einem neuen Blick auf die problematischen Befunde anregen. Evenuell kann so das Problem des bekannten "publication bias", also der Tendenz, dass vor allem positive Ergebnisse veröffentlicht werden, etwas reduziert werden. Webseite
Netzwerk Kobalt-DaF	Kobalt-DaF ist ein DFG-gefördertes Netzwerk zur Annotation und Analyse argumentativer Lernertexte mit dem Ergebnis eines schriftlichen Korpus des fortgeschrittenen Deutschen als Fremdsprache und chinesischen, schwedischen und weißrussischen Lernerkohorten. Webseite
	Ziel dieses Projekts WHiG ("What's Hard in German?") ist es, diejenigen sprachlichen Strukturen im Deutschen ausfindig zu machen und zu untersuchen, die besondere Schwierigkeiten beim Erwerb des Deutschen als Fremdsprache bereiten. Solche Schwierigkeiten werden in der Regel durch Betrachtungen von Fehlern ermittelt (bspw. Borin & Prütz 2004 oder Westergren-Axelsson & Hahn 2001). Werden schwierige Strukturen von Lernern jedoch vermieden, scheitert dieser Ansatz. Daher vermuten wir, dass es für eine systematische Suche nach schwierigen Strukturen effektiver ist, deren relatives Vorkommen in Lernerdaten zu untersuchen. Webseite

Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Seitennavigation:

Laufende Projekte

TextPloring

Korpusressourcen

BeMaTaC

DDB

Deutsche Diachrone Baumbank

Dulko

KanDeL

Kobalt-DaF

Märchenkorpus

NoSta-D

Software und Datenformate sowie -infrastrukturen

Hexatomic

Laudatio

Beendete Projekte und Netzwerke

CALLIDUS

INDUS-Netzwerk

KOMPOST

LangBank

Mind Research Repository (MRR)

Netzwerk Kobalt-DaF