Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

NaLeKo

(NarrationsLernerKorpus)

 

Seitennavigation: Annotationsebenen, Korpusnutzung und Nutzungsrechte, Referenzen und Zitierhinweise

 

NaLeKo ist ein tief annotiertes Korpus zur Untersuchung narrativer Texte von Schülerinnen und Schülern des Deutschen (Sprecherinnen des Deutschen als Muttersprache und Deutsch als Zweitsprache). Das Korpus deckt die Klassenstufen 2 bis 9 ab. Detaillierte Angaben über die Korpuszusammensetzung und -architektur folgen weiter unten.


Die Textdaten von NaLeKo sind von Anja Binanzer und Miriam Langlotz erhoben worden. Das primäre Forschungsanliegen bei der Erstellung von NaLeKo war die Analyse der Verwendung temporaler Junktoren in Kindertexten (Projekt JuNaKo - Junktion-Narration-Korpuslinguistik). Das Korpus enthält deshalb neben vielen allgemeineren Annotationsebenen solche für die Ausweisung von Konnektoren und temporaler Beziehungen zwischen Äußerungen.

 

In Hirschmann/Binanzer/Langlotz 2023 wird der Forschungs- und Erhebungshintergrund sowie der Korpusaufbau aufgezeigt und Verwendungsbeispiele genannt.

 

Das Korpus ist komplex strukturiert und beinhaltet in der aktuellen Version 1.0 die folgenden Analysen (Annotationen):

  • Werte (tags) für Wortarten (pos - part of speech) und Grundformen (Lemmata)
  • Zielhypothesen: Für grammatisch-stilistische Abweichungen werden tokenbasiert kanonische Entsprechungen formuliert, die parallel zu den originalen Lernerdaten gespeichert werden.
  • Werte (tags) für die grammatische Art der Abweichung zwischen Originaltext und Zielhypothese (klassisches "Fehlertagging", z. B. "ZS" für "Zeichensetzung")
  • Werte (tags) für Editierdistanzen zwischen Originaltext und Zielhypothese (Einfügungen, Weglassungen, Abänderungen und Verschiebungen von Elementen, z. B. "CHA" für "change" bzw. eine Abänderung der gegebenen Oberflächenform)
  • Sätze (Gesamtsätze) und Teilsätze
  • Syntaktisch-semantische Analyse von Junktoren (eingeleitete Nebensätze und weiterer Fälle von Konnektoren):
    • Typ des Einleiteworts bzw. Junktors
    • Syntax und Stellung der eingebetteten Struktur
    • Semantik der eingebetteten Struktur

Die nachfolgende Tabelle enthält für die aufgelisteten Annotationsebenen den jeweils relevanten Ebenennamen und eine Beispielanfrage für das unten angeführte Suchinterface ANNIS (Link zum Korpus im Interface).

Annotationsbezeichnung Ebenenname Beispielsuchanfragen
Segmentierter Text
(Lernertext)
word

word=‎"Hunde‎"

word="hunt"

word=/ver.*/

Lemma (Grundform) lemma

lemma="Hund"

lemma=/ent.*/

lemma="die" . lemma="Hund"

"Korrigierte" Ziehypothesenform ZH

ZH="Hund"

ZH="Hund" _=_ word=/h.*/

Editierdistanz (Einfügung "INS", Löschung "DEL", Veränderung "CHA") ZHDiff

ZHDiff="INS"

word="der" _=_ ZHDiff="DEL"

Wortart (nach STTS) pos

pos="ADJA"

word=/ver.*/ _=_ pos=/V.*/

Fehlertyp FehlerOrth, FehlerMorph, FehlerLex, FehlerSyn FehlerOrth="GKS"
Junktion SemantikJunktion, SyntaxJunktion, StellungJunktion, NSFunktion SemantikJunktion="TEMPNZ"

 

Das Korpus ist frei nutzbar unter der Bedingung der Namensnennung (Creative Commons Namensnennung 3.0 Unported Lizenz) und kann auf verschiedene Weise bezogen und ausgewertet werden:

  • Nutzung des Korpus im Webbrowser über das ANNIS-Onlineinterface der HU-Berlin: Klicken Sie hier, um JuNaKo im ANNIS-Online-Interface durchsuchen zu können. ANNIS ist eine offene Korpus-Suchsoftware, mit der tief annotierte Korpora betrachtet und durchsucht werden können.
  • Nutzung des Korpus auf einem lokalen Computer: Die Korpusdaten sind in verschiedenen Formaten verfügbar:
    • .txt-Format
    • EXMARaLDA-Format .exb
    • Tabellenformat .xslx
    • ANNIS-Datenformat zur Nutzung in einer lokalen Installation des Korpussuchinterfaces ANNIS

      Bitte kontaktieren Sie Hagen Hirschmann, um die Korpusdaten in einem dieser Formate zu erhalten.

Für die Erstellung, Verwaltung und Auswertung des Korpus wurden bzw. werden die folgenden Werkzeuge verwendet:

 

Zitierhinweis: Um NaLeKo zu referenzieren, geben Sie bitte diese Webseite https://hu-berlin.de/naleko und geben die folgende Publikation an:

Hirschmann, Hagen; Binanzer, Anja; Langlotz, Miriam (2023) NaLeKO. Ein komplex annotiertes Lernerkorpus mit schriftlichen Erzähltexten des Deutschen als Erst- und Zweitsprache. In: KorDaF (Korpora Deutsch als Fremdsprache) (2:2), 139-148. Quelle/Download

 

Publikationen zu NaLeKo:

- Binanzer, Anja; Hirschmann, Hagen; Langlotz, Miriam (2022) Narrative Funktionen temporaler Junktoren – Lernertexte und Kinder- und Jugendliteratur im korpuslinguistischen Vergleich. In: Mesch, Birgit; Uhl, Benjamin (Hg.): Tempus und Temporalität. Empirische Zugänge zum Erwerb von Zeitlichkeit. Münster; Waxmann, 175-198. Quelle

- Binanzer, Anja; Langlotz, Miriam (2019): Junktion und Narration – Schreibentwicklungsprozesse ein- und mehrsprachiger Kinder. In: Binanzer, Anja; Langlotz, Miriam; Wecker, Verena (Hg.): Grammatik in Erzählungen. Erwerbs-, Entwicklungs- und Förderperspektiven. Baltmannsweiler:
Schneider, 125-150. Quelle Download

 


Verantwortliche: Anja Binanzer, Hagen Hirschmann, Miriam Langlotz

Studentische Mitarbeiterinnen: Anna Heiden, Janna Schulz, Ricarda Gumprich