Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

NaLeKo

(NarrationsLernerKorpus)

 

Seitennavigation: Korpusaufbau (Annotationsebenen), Korpusnutzung und Nutzungsrechte, Referenzen und Zitierhinweise

 

NaLeKo ist ein tief annotiertes Korpus zur Untersuchung narrativer Texte von Schülerinnen und Schülern des Deutschen (Sprecherinnen des Deutschen als Muttersprache und Deutsch als Zweitsprache). Das Korpus deckt die Klassenstufen 2 bis 9 ab. Detaillierte Angaben über die Korpuszusammensetzung und -architektur folgen weiter unten. Das Korpus steht öffentlich im Korpussuchsystem ANNIS (Webseite von ANNIS; Link zu NeLeKo in ANNIS s.u.) zur Verfügung.


Die Textdaten von NaLeKo sind von Anja Binanzer und Miriam Langlotz erhoben worden. Das primäre Forschungsanliegen bei der Erstellung von NaLeKo war die Analyse der Verwendung temporaler Junktoren in Kindertexten (Projekt JuNaKo - Junktion-Narration-Korpuslinguistik). Das Korpus enthält deshalb neben vielen allgemeineren Annotationsebenen solche für die Ausweisung von Konnektoren und temporaler Beziehungen zwischen Äußerungen.

 

In Hirschmann/Binanzer/Langlotz 2023 wird der Forschungs- und Erhebungshintergrund sowie der Korpusaufbau aufgezeigt und Verwendungsbeispiele genannt.

 

Korpusaufbau:
Das Korpus ist komplex strukturiert und beinhaltet in der aktuellen Version 1.0 die folgenden Analysen (Annotationen):

  • Werte (tags) für Wortarten (pos - part of speech) und Grundformen (Lemmata)
  • Zielhypothesen: Für grammatisch-stilistische Abweichungen werden tokenbasiert kanonische Entsprechungen formuliert, die parallel zu den originalen Lernerdaten gespeichert werden.
  • Werte (tags) für die grammatische Art der Abweichung zwischen Originaltext und Zielhypothese (klassisches "Fehlertagging", z. B. "ZS" für "Zeichensetzung")
  • Werte (tags) für Editierdistanzen zwischen Originaltext und Zielhypothese (Einfügungen, Weglassungen, Abänderungen und Verschiebungen von Elementen, z. B. "CHA" für "change" bzw. eine Abänderung der gegebenen Oberflächenform)
  • Sätze (Gesamtsätze) und Teilsätze
  • Syntaktisch-semantische Analyse von Junktoren (eingeleitete Nebensätze und weiterer Fälle von Konnektoren):
    • Typ des Einleiteworts bzw. Junktors
    • Syntax und Stellung der eingebetteten Struktur
    • Semantik der eingebetteten Struktur

Die nachfolgende Tabelle enthält für die aufgelisteten Annotationsebenen den jeweils relevanten Ebenennamen und eine Beispielanfrage für das unten angeführte Suchinterface ANNIS (Link zum Korpus im Interface).

Annotationsbezeichnung Ebenenname Beispielsuchanfragen
Segmentierter Text
(Lernertext)
word

word=‎"Hunde‎"

word="hunt"

word=/ver.*/

Lemma (Grundform) lemma

lemma="Hund"

lemma=/ent.*/

lemma="die" . lemma="Hund"

"Korrigierte" Ziehypothesenform ZH

ZH="Hund"

ZH="Hund" _=_ word=/h.*/

Editierdistanz (Einfügung "INS", Löschung "DEL", Veränderung "CHA") ZHDiff

ZHDiff="INS"

word="der" _=_ ZHDiff="DEL"

Wortart (nach STTS) pos

pos="ADJA"

word=/ver.*/ _=_ pos=/V.*/

Fehlertyp FehlerOrth, FehlerMorph, FehlerLex, FehlerSyn FehlerOrth="GKS"
Junktion SemantikJunktion, SyntaxJunktion, StellungJunktion, NSFunktion SemantikJunktion="TEMPNZ"

Hinweis: Einige Nutzer*innen möchten die Lernertexte des Korpus als ganze Texte einsehen (lesen) können. Hierfür gibt es den folgenden Workaround: Suchen Sie im ANNIS-Suchinterface nach dem jeweils ersten Satz eines jeden Textes und stellen Sie den Anzeigekontext auf einen Maximalwert (z.B. 100.000, da kein Text länger als 100.000 Token sein wird). Dies bewerkstelligen Sie u.a. mit der Anfrage S=‎"s1‎". Nun können Sie in der Trefferansicht durch die kompletten Texte scrollen (oben von Text zu Text weiterklicken). Mit dem "Grid Exporter" ("More">"Export" im Interface) lassen sich die gefundenen Daten als Textdatei exportieren; geben Sie hierzu bei "Annotation Keys" noch den Wert "word" ein (auf diese Weise wird genau die Ebene der Lernertexte exportiert). (Die Klammerausdrücke im Export, die auf die Position des entsprechenden Tokens hinweisen, lassen sich mittels regulärer Ausdrücke entfernen.)

 

Lizenz:

Das Korpus ist frei nutzbar unter der Bedingung der Namensnennung (Creative Commons Namensnennung 3.0 Unported Lizenz).

Zitierhinweis: Um NaLeKo zu referenzieren, geben Sie bitte diese Webseite [https://hu-berlin.de/naleko] und die folgende Publikation an:

Hirschmann, Hagen; Binanzer, Anja; Langlotz, Miriam (2023) NaLeKO. Ein komplex annotiertes Lernerkorpus mit schriftlichen Erzähltexten des Deutschen als Erst- und Zweitsprache. In: KorDaF (Korpora Deutsch als Fremdsprache) (2:2), 139-148. Quelle/Download

 

Referenzen (Werkzeuge zur Erstellung von NaLeKo):
Für die Erstellung, Verwaltung und Auswertung des Korpus wurden bzw. werden die folgenden Werkzeuge verwendet:

 

Publikationen zu NaLeKo:

- Binanzer, Anja; Hirschmann, Hagen; Langlotz, Miriam (2022) Narrative Funktionen temporaler Junktoren – Lernertexte und Kinder- und Jugendliteratur im korpuslinguistischen Vergleich. In: Mesch, Birgit; Uhl, Benjamin (Hg.): Tempus und Temporalität. Empirische Zugänge zum Erwerb von Zeitlichkeit. Münster; Waxmann, 175-198. Quelle

- Binanzer, Anja; Langlotz, Miriam (2019): Junktion und Narration – Schreibentwicklungsprozesse ein- und mehrsprachiger Kinder. In: Binanzer, Anja; Langlotz, Miriam; Wecker, Verena (Hg.): Grammatik in Erzählungen. Erwerbs-, Entwicklungs- und Förderperspektiven. Baltmannsweiler:
Schneider, 125-150. Quelle Download

 


Verantwortliche: Anja Binanzer, Hagen Hirschmann, Miriam Langlotz
Bitte kontaktieren Sie Hagen Hirschmann, wenn Sie technische Probleme haben oder weitere Informationen zu den Korpusdaten benötigen.

Studentische Mitarbeiterinnen: Anna Heiden, Janna Schulz, Ricarda Gumprich