Die Falko-Familie: einzelne Korpora

Korpuslinguistik und Morphologie | Die Falko-Familie: einzelne Korpora

Die Falko-Familie: einzelne Korpora

Zusammenfassung der einzelnen Falko-Korpora

Die Korpora der Falko-Familie besteht aus mehreren Einzelkorpora. In den vergangenen Jahren ist die Datenmenge vor allem durch das Hinzukommen neuer Korpusdaten mit leicht veränderten Spezifikationen der Lerner- und Erhebungsparameter erheblich gewachsen. Sämtliche im ANNIS-Falko-Suchinterface verfügbaren Ressourcen sind im Folgenden zusammengefasst.

Das Essay-Kernkorpus enthält argumentative Aufsätze von fortgeschrittenen Lernenden des DaF mit multiplen L1-Hintergrund. Unter anderem haben wir Essays aus Adana, Berlin (Sommerkurse im Sprachenzentrum der HU), Kopenhagen, Mombasa, Nairobi, Nyeri, Taschkent, Stellenbosch und Turin erhoben. Das Essaykorpus wurde in der Vergangenheit konstant weiter ausgebaut, was die enthaltenen Lernerdaten sowie die Datenannotation angeht. Aus diesem Grund besteht es aus verschiedenen, parallel verfügbaren Versionen. Wenn Sie das Korpus neu nutzen wollen, nehmen Sie bitte die neueste Version; wenn Sie an eine vorige Nutzung anknüpfen wollen, merken Sie sich bitte die bislang verwendete Version.
Wie die Regel bei den Korpora der Falko-Familie, sind im Essay-Korpus die originalen Lerneräußerungen mit automatischen Wortart- und Lemma-Annotationen sowie Zielhypothesen versehen, die grammatische und stilistische Abweichungen von der Zielsprache Deutsch darstellen. Auch die Zielhypothesen sind getaggt. Automatisch generierte Tags für grundlegende Typen von Abweichungen der Lerneräußerung von der Zielhypothese geben Aufschluss über basale Fehlerkategorien.
Die Erhebungsumstände und Annotationsrichtlinien sind im Falko-Handbuch beschrieben.
Wenn Sie uns helfen und Lernerdaten erheben oder zum Einpflegen zusenden wollen, schreiben Sie uns bitte.
Wie zu den meisten Falko-Korpora existiert auch zum Essaykorpus ein Vergleichskorpus mit Muttersprachlerdaten (erhoben an Berliner Gymnasien).
Das WHiG-Korpus enthält wie das Essay-Korpus argumentative Aufsätze von fortgeschrittenen DaF-Lernenden (zu denselben Themenbereichen wie das Essay-Korpus), allein dass es sich hierbei um einen homogenen L1-Hintergrund (Englisch) handelt. Informationen zum WHiG-Projekt erhalten Sie hier.
Das Kobalt-DaF-Korpus besteht aus drei Subkorpora mit schwedischer, chinesischer und weißrussischer Muttersprache sowie einem L1-Vergleichskorpus und folgt den Falko-Erhebungs- und Aufbereitungsrichtlinien. Was die Annotationen betrifft, so ist Kobalt-DaF etwas reichhaltiger annotiert als die übrigen Falko-Korpora. Details folgen auf der Kobalt-DaF-Dokumentationsseite (in Erstellung).
Das KanDel-Korpus - erhoben von Nina Vyatkina in Kansas, USA - enthält im Gegensatz zu den übrigen Falko-Korpora geschrieben Daten von beginnenden US-amerikanischen Lernenden des DaF, außerdem wurden diese Daten longitudinal aufbereitet. Nähere Informationen erhalten Sie auf der KanDel-Dokumentationsseite.
Das Zusammenfassungskorpus enthält Textzusammenfassungen, die von fortgeschrittenen Lernern des Deutschen erstellt wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben.
Dazu gibt es
- ein Erweiterungskorpus mit Textzusammenfassungen, die von dänischen Lernern des Deutschen in Kopenhagen erstellt wurden,
- ein Vergleichskorpus mit Texten von Muttersprachlern
- und die Sammlung der Vorlagentexte.
Das Georgetown-Longitudinalkorpus enthält Daten, die über mehrere Semester und Lernstände an der Georgetown-Universität in Washington erhoben wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben. Dazu gibt es ein Vergleichskorpus mit Texten von Muttersprachlern für das Genre der Buchrezensionen (Falko Baseline Vergleich). Zum Longitudinalkorpus ist eine Metadatentabelle verfügbar.
Das fehlergetaggte Lernerkorpus ungarischer DaF-Lernenden der Universität Szeged Dulko ist im Aufbau befindlich und wird Essay- und Übersetzungstexte enthalten. Dulko ist das einzige Korpus der Falko-Familie, welches zusätzlich zu der Formulierung von Zielhypothesen ein explizites, grammatisch orientiertes Fehlertagging haben wird. Mehr Informationen erhalten Sie hier.

Tabellarische Zusammenfassung:

Name	Texttyp	Anzahl Token	Anzahl Texte	L1	Annotationen
Essay L2 (v2.4)	Essay	144.619	248	>30	ZH1, ZH2, pos, lemma, diff-tags, top. Felder, …
Essay L1 (v2.3)	Essay	70.615	95	de	"
WHiG L2 (v2.1)	Essay	130.949	196	en	"
Kobalt-DaF L2 (v1.4)	Essay	33.368	51	chin, swe, russ	"
Kobalt-DaF L1 (v1.4)	Essay	12.984	20	de	"
KanDel (long v.2015)	Bericht	34.612	185	en	ZH1, pos, lemma, diff-tags
KanDel (cross v.2015)	Bericht	73.920	425	en	ZH1, pos, lemma, diff-tags
Summary L2 (v1.2)	Zusammen- fassung	40.638	106	>10	o. ZH, mit top. Feldern
Summary L1 (v1.2)	Zusammen- fassung	21.211	57	de	nur pos + lemma
Georgetown	Brief, Erzählung	78.151	92	eng	pos, lemma, teilw. ZH, top. Felder
Dulko (erscheint)	Essay, Übers.	t.b.a.	t.b.a.	ung	ZH, pos, lemma, diff-tags, error tags
∑		641.067	1.475

Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie