Die Falko-Familie: einzelne Korpora
Die Korpora der Falko-Familie besteht aus mehreren Einzelkorpora. In den vergangenen Jahren ist die Datenmenge vor allem durch das Hinzukommen neuer Korpusdaten mit leicht veränderten Spezifikationen der Lerner- und Erhebungsparameter erheblich gewachsen. Sämtliche im ANNIS-Falko-Suchinterface verfügbaren Ressourcen sind im Folgenden zusammengefasst.
- Das Essay-Kernkorpus enthält argumentative Aufsätze von fortgeschrittenen Lernenden des DaF mit multiplen L1-Hintergrund. Unter anderem haben wir Essays aus Adana, Berlin (Sommerkurse im Sprachenzentrum der HU), Kopenhagen, Mombasa, Nairobi, Nyeri, Taschkent, Stellenbosch und Turin erhoben. Das Essaykorpus wurde in der Vergangenheit konstant weiter ausgebaut, was die enthaltenen Lernerdaten sowie die Datenannotation angeht. Aus diesem Grund besteht es aus verschiedenen, parallel verfügbaren Versionen. Wenn Sie das Korpus neu nutzen wollen, nehmen Sie bitte die neueste Version; wenn Sie an eine vorige Nutzung anknüpfen wollen, merken Sie sich bitte die bislang verwendete Version.
Wie die Regel bei den Korpora der Falko-Familie, sind im Essay-Korpus die originalen Lerneräußerungen mit automatischen Wortart- und Lemma-Annotationen sowie Zielhypothesen versehen, die grammatische und stilistische Abweichungen von der Zielsprache Deutsch darstellen. Auch die Zielhypothesen sind getaggt. Automatisch generierte Tags für grundlegende Typen von Abweichungen der Lerneräußerung von der Zielhypothese geben Aufschluss über basale Fehlerkategorien.
Die Erhebungsumstände und Annotationsrichtlinien sind im Falko-Handbuch beschrieben.
Wenn Sie uns helfen und Lernerdaten erheben oder zum Einpflegen zusenden wollen, schreiben Sie uns bitte. - Wie zu den meisten Falko-Korpora existiert auch zum Essaykorpus ein Vergleichskorpus mit Muttersprachlerdaten (erhoben an Berliner Gymnasien).
- Das WHiG-Korpus enthält wie das Essay-Korpus argumentative Aufsätze von fortgeschrittenen DaF-Lernenden (zu denselben Themenbereichen wie das Essay-Korpus), allein dass es sich hierbei um einen homogenen L1-Hintergrund (Englisch) handelt. Informationen zum WHiG-Projekt erhalten Sie hier.
- Das Kobalt-DaF-Korpus besteht aus drei Subkorpora mit schwedischer, chinesischer und weißrussischer Muttersprache sowie einem L1-Vergleichskorpus und folgt den Falko-Erhebungs- und Aufbereitungsrichtlinien. Was die Annotationen betrifft, so ist Kobalt-DaF etwas reichhaltiger annotiert als die übrigen Falko-Korpora. Details folgen auf der Kobalt-DaF-Dokumentationsseite (in Erstellung).
- Das KanDel-Korpus - erhoben von Nina Vyatkina in Kansas, USA - enthält im Gegensatz zu den übrigen Falko-Korpora geschrieben Daten von beginnenden US-amerikanischen Lernenden des DaF, außerdem wurden diese Daten longitudinal aufbereitet. Nähere Informationen erhalten Sie auf der KanDel-Dokumentationsseite.
- Das Zusammenfassungskorpus enthält Textzusammenfassungen, die von fortgeschrittenen Lernern des Deutschen erstellt wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben.
Dazu gibt es- ein Erweiterungskorpus mit Textzusammenfassungen, die von dänischen Lernern des Deutschen in Kopenhagen erstellt wurden,
- ein Vergleichskorpus mit Texten von Muttersprachlern
- und die Sammlung der Vorlagentexte.
- Das Georgetown-Longitudinalkorpus enthält Daten, die über mehrere Semester und Lernstände an der Georgetown-Universität in Washington erhoben wurden. Die Erhebungsumstände und die Zusammensetzung sind hier beschrieben. Dazu gibt es ein Vergleichskorpus mit Texten von Muttersprachlern für das Genre der Buchrezensionen (Falko Baseline Vergleich). Zum Longitudinalkorpus ist eine Metadatentabelle verfügbar.
- Das fehlergetaggte Lernerkorpus ungarischer DaF-Lernenden der Universität Szeged Dulko ist im Aufbau befindlich und wird Essay- und Übersetzungstexte enthalten. Dulko ist das einzige Korpus der Falko-Familie, welches zusätzlich zu der Formulierung von Zielhypothesen ein explizites, grammatisch orientiertes Fehlertagging haben wird. Mehr Informationen erhalten Sie hier.
Tabellarische Zusammenfassung:
Name |
Texttyp |
Anzahl Token |
Anzahl Texte |
L1 |
Annotationen |
Essay L2 (v2.4) |
Essay |
144.619 |
248 |
>30 |
ZH1, ZH2, pos, lemma, diff-tags, top. Felder, … |
Essay L1 (v2.3) |
Essay |
70.615 |
95 |
de |
" |
WHiG L2 (v2.1) |
Essay |
130.949 |
196 |
en |
" |
Kobalt-DaF L2 (v1.4) |
Essay |
33.368 |
51 |
chin, swe, russ |
" |
Kobalt-DaF L1 (v1.4) |
Essay |
12.984 |
20 |
de |
" |
KanDel (long v.2015) |
Bericht |
34.612 |
185 |
en |
ZH1, pos, lemma, diff-tags |
KanDel (cross v.2015) |
Bericht |
73.920 |
425 |
en |
ZH1, pos, lemma, diff-tags |
Summary L2 (v1.2) |
Zusammen- fassung |
40.638 |
106 |
>10 |
o. ZH, mit top. Feldern |
Summary L1 (v1.2) |
Zusammen- fassung |
21.211 |
57 |
de |
nur pos + lemma |
Georgetown |
Brief, Erzählung |
78.151 |
92 |
eng |
pos, lemma, teilw. ZH, top. Felder |
Dulko (erscheint) |
Essay, Übers. |
t.b.a. |
t.b.a. |
ung |
ZH, pos, lemma, diff-tags, error tags |
∑ |
641.067 |
1.475 |