BeMaTaC

Korpuslinguistik und Morphologie | BeMaTaC

BeMaTaC

Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache

This website is also available in English.

Beschreibung

Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung.

Neues Release Das aktuelle Release 3.0 enthält ein L1-Subkorpus mit 12 Dialogen (66 Minuten, 8900 normalisierte Token) sowie ein L2-Subkorpus mit 5 Dialogen (77 Minuten, 9223 normalisierten Token).


Instructor	Instructee

Zugang

BeMaTaC ist über ANNIS, ein browserbasiertes Open-Source-Such- und Visualisierungstool für tief annotierte Korpora, zugänglich.

Annotation

Das aktuelle Release 2.1 / 2013-02.1 enthält folgende Ebenen:

Orthographienahe Transkription mit Fillern, Wortabbrüchen, umgangssprachlichen Zusammenziehungen und idiosynkratischer Aussprache
Normalisierte orthographische Transkription
Automatisch generierte Lemmatisierung
Automatisch generierte Wortartentags unter Verwendung des STTS (Stuttgart-Tübingen-TagSet)
Syntaktisch motivierte Äußerungsspannen
Backchanneling (im L1-Subkorpus nur Backchanneling des Instructees)
Disfluencies: Filler (gefüllte Pausen), Wortdehnungen, Aussprachefehler, Explicit editing terms und Wiederholungen
Reparaturen: Reparandum, Interregnum, Reparans
Reparatursubkategorisierungen: Wiederholungen, Ersetzungen, Einfügungen
Extralinguistische Ereignisse
Pausen (ungefüllte Pausen)
Tokenlänge

Die folgenden Daten sind als Teil des NoSta-D-Korpus verfügbar:

Syntaktische Dependenzen
Named entitiy recognition and disambiguation
Koreferenzen

Wir arbeiten derzeit an folgenden Annotationen:

Automatische Annotation von Pausen, Fillern und Wiederholungen
Verbessertes Wortartentagging durch Einbezug von Äußerungsspannen
Semi-automatische Normalisierung
Manuell korrigierte Wortartentags (L1-Subkorpus)

Längerfristige Annotationspläne:

Hyperlemma-Annotation für idiosynkratische Ausdrücke
Manuell korrigierte Lemmatisierung
Manuell korrigierte Wortartentags (L2-Subkorpus)
Phonetische/phonologische Transkription/Annotation
Syntaktische Phänomene
Informationsstruktur

Dokumentation

Die folgenden Seiten beziehen sich auf das jeweils neueste Release, frühere Versionen können Daten enthalten, die mit diesen Richtlinien inkompatibel sind.

Download

BeMaTaC ist unter einer Creative Commons Attribution 3.0 Unported License lizenziert.

Wenn Sie unser Korpus für Ihre Forschung verwenden oder BeMaTaC mit weiteren Annotationen erweitern möchten, schreiben Sie uns bitte.

L1-Subkorpus: Release 2.1 / 2013-02.1

EXMARaLDA-Partituren (ZIP-Archiv, 447 KB)
Audiodateien (WAVE) (ZIP-Archiv, 565 MB)
Videodateien (QuickTime) (ZIP-Archiv, 5,79 GB)
Videodateien (WebM) (ZIP-Archiv, 147 MB)
Map-Task-Karten (ZIP-Archiv, 32 MB)

L2-Subkorpus: Release 2.1 / 2013-02.1

EXMARaLDA-Partituren (ZIP-Archiv, 479 KB)
Audiodateien (WAVE) (ZIP-Archiv, 525 MB)
Audiodateien (mp3) (ZIP-Archiv, 70,2 MB)
Map-Task-Karten (ZIP-Archiv, 22,8 MB)

Andere Releases

Syntaktische Dependenzen, Named entities und Koreferenzen sind als Teil des NoSta-D-Korpus verfügbar.
Frühere Releases sind im Bereich Versionsgeschichte zum Download verfügbar.

Team & Kontakt

Für weitere Informationen oder Anfragen kontaktieren Sie bitte Simon Sauer.
Assoziiert: Malte Belz, Oxana Rasskazova
Ehemalige Mitglieder: Linda Giesel, Daisy Krüger, Elisabeth Lühr, Isabelle Nunberger, Myriam Klapi, Rosalia Schultze-Kraft, Melanie Siemund and Albina Töws

Publikationen

Wie zitiere ich BeMaTaC?

Bitte immer diese Webseite zitieren und zwar in der folgenden Form: http://u.hu-berlin.de/bematac
Wenn Ihre Zitatanforderungen dies verlangen, können Sie Simon Sauer als Herausgeber zitieren.
Wenn Ihre Zitatanforderungen einen Fachaufsatz verlangen, können Sie folgendes Papier zitieren:
- Simon Sauer & Anke Lüdeling. 2016. Flexible Multi-Layer Spoken Dialogue Corpora. International Journal of Corpus Linguistics, Volume 21, Issue 3, 2016, Special Issue: Compilation, Transcription, Markup and Annotation of Spoken Corpora, 419–438.
Zusätzlich zur Webseite können Sie folgende Poster zitieren:
- Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Berlin Map Task Corpus – A deeply annotated multimodal map-task corpus of spoken learner and native German. DGfS-CL 2013.
  [http://korpling.german.hu-berlin.de/bematac/publications/Giesel-et-al_2013_DGfS-CL-2013.pdf]
- Simon Sauer & Oxana Rasskazova. 2014. BeMaTaC – eine digitale multimodale Ressource für Sprach- und Dialogforschung. Workshop Grenzen überschreiten – Digitale Geisteswissenschaft heute und morgen, Digital Humanities Berlin 2014.
  [http://korpling.german.hu-berlin.de/bematac/publications/Sauer-Rasskazova_2014_3WS-DHB.pdf]
Beim Zitieren von spezifischen Daten aus dem Korpus geben Sie bitte das Subkorpus (L1 oder L2), die Korpusversion (z.B. 2013-02.1), das Dokument (z.B. 2011-12-14-A) und den Tokenbereich (in der tok-Ebene dargestellt) an.

2017

Malte Belz, Simon Sauer, Anke Lüdeling, Christine Mooshammer. 2017. Fluently disfluent? Pauses and Repairs of Advanced Learners and Native Speakers of German. International Journal of Learner Corpus Research, Volume 3, Issue 2, 2017, Special Issue: Segmental, Prosodic and Fluency Features in Phonetic Learner Corpora. 118-148. [https://doi.org/10.1075/ijlcr.3.2.02bel]

2016

Simon Sauer & Anke Lüdeling. 2016. Flexible Multi-Layer Spoken Dialogue Corpora. International Journal of Corpus Linguistics, Volume 21, Issue 3, 2016, Special Issue: Compilation, Transcription, Markup and Annotation of Spoken Corpora, 419–438. [Vorversion]

2015

Malte Belz, Simon Sauer, Anke Lüdeling, Christine Mooshammer. 2015. Repair Behaviour of Advanced German Learners in the Berlin Map Task Corpus. IFCASL Workshop on Phonetic Learner Corpora, satellite workshop of ICPhS2015, Glasgow, 12.08.2015.

Anke Lüdeling, Malte Belz, Hagen Hirschmann, Martin Klotz, Carolin Odebrecht, Laura Perlitz, Simon Sauer, Vivian Voigt. 2015. BeMaTaC, Falko, RIDGES. Linguistische Mehrebenenkorpora für Nichtstandard-Varietäten des Deutschen. Digital-Humanities-Tag 2015, Philosophische Fakultät II, Humboldt-Universität zu Berlin. [Poster]

Simon Sauer. 2015. BeMaTaC: Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache. Gesprochene Fremdsprache Deutsch — Forschung und Vermittlung, Universidade de Lisboa, 26.—28.02.2015. [Abstract]

2014

Malte Belz. 2014. Managing referential mismatches in German map task dialogues. RefNet Workshop, Edinburgh, 31.08.2014. [Abstract]

Oxana Rasskazova, Simon Sauer, Christine Mooshammer. 2014. Berlin Dialog Corpus (BeDiaCo) – ein multimodales Korpus für Konvergenz- und Dialogforschung. Workshop Sprachdatenbanken – von der Aufnahme zur Publikation, CLARIN-D. [Poster]

Simon Sauer & Oxana Rasskazova. 2014. BeMaTaC – eine digitale multimodale Ressource für Sprach- und Dialogforschung. Workshop Grenzen überschreiten – Digitale Geisteswissenschaft heute und morgen, Digital Humanities Berlin 2014. [Poster]

Malte Belz. 2014. Repair disfluencies in German native and non-native speech. Linguistic Evidence 2014. [Poster]

2013

Myriam Klapi. 2013. Disfluency Patterns: A Contrastive Corpus Study. Masterarbeit. Humboldt-Universität zu Berlin, Dezember 2013.

Malte Belz. 2013. Disﬂuencies und Reparaturen bei Muttersprachlern und Lernern – eine kontrastive Analyse. Masterarbeit. Humboldt-Universität zu Berlin, November 2013. [online]

Oxana Rasskazova & Simon Sauer. 2013. BeMaTaC: ein multimodales Map-Task-Dialogkorpus. Pre-conference workshop Gesprochene Sprache und Sprachverarbeitung, GSCL 2013. [Abstract]

Anke Lüdeling. 2013. Corpora of Spoken Language. Eingeladener Vortrag. From Hand to Mouth: A Dialogue between Spoken and Sign Language Research 2013. [Folien]

Malte Belz & Myriam Klapi. 2013. Pauses following Fillers in L1 and L2 German Map Task Dialogues. Proceedings of Disfluency in Spontaneous Speech. DiSS 2013, 9–12. [online]

Clara Becker. 2013. Doing Backchanneling – Verhalten von Frauen und Männern beim Backchanneling im aufgabenorientierten Dialog. Bachelorarbeit. Humboldt-Universität zu Berlin, Juli 2013. [online]

Simon Sauer & Anke Lüdeling. 2013. BeMaTaC: A Flexible Multilayer Spoken Dialogue Corpus for Contrastive SLA Analyses. ICAME 34, 46–47. [Abstract]

Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Gesprochene Muttersprache vs. Lernersprache – Aufbau und Auswertung eines Korpus. Forschendes Lernen an der Humboldt-Universität zu Berlin, 81–86. [online]

Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Berlin Map Task Corpus – A deeply annotated multimodal map-task corpus of spoken learner and native German. DGfS-CL 2013. [Poster]

Lehre

Ein wichtiges Ziel von BeMaTaC ist die Förderung der Nutzung von Korpora und das Unterrichten des notwendigen Fachwissens. Dies wird nicht nur durch die Verwendung von BeMaTaC-Daten in Lehrveranstaltungen der Linguistik, sondern auch durch die aktive Erweiterung des Korpus im Unterricht erreicht.

Wintersemester 2014/2015

TUT Nichtstandardvarietäten im Deutschen.
Julia Kostka, Pia Linscheid, Kristina Sommer, Humboldt-Universität zu Berlin.

Wintersemester 2013/2014

TUT Korpusdesign und gesprochene Sprache – BeMaTaC.
Oxana Rasskazova & Simon Sauer, Humboldt-Universität zu Berlin.

Sommersemester 2013

Q-TUT Berlin Map Task Corpus – Korpusdesign und gesprochene Sprache.
Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer, Humboldt-Universität zu Berlin.

Wintersemester 2012/2013

Q-TUT Gesprochene Muttersprache vs. Lernersprache – Aufbau und Auswertung eines Korpus.
Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer, Humboldt-Universität zu Berlin.
HS Corpus Annotation of Information Structure.
Kordula De Kuthy & Detmar Meurers, Eberhard Karls Universität Tübingen.

Wintersemester 2011/2012

SE Gesprochene Lernersprache.
Anke Lüdeling & Bernd Pompino-Marschall, Humboldt-Universität zu Berlin.

Tools & Referenzen

Original map-task design by HCRC
Anne H. Anderson, Miles Bader, Ellen Gurman Bard, Elizabeth Boyle, Gwyneth Doherty, Simon Garrod, Stephen Isard, Jacqueline Kowtko, Jan McAllister, Jim Miller, Catherine Sotillo, Henry Thompson & Regina Weinert. 1991. The HCRC Map Task Corpus. Language and Speech 34, 351–366.

Original corpus design based on HAMATAC
Thomas Schmidt, Hanna Hedeland, Timm Lehmberg & Kai Wörner. 2010. HAMATAC – The Hamburg MapTask Corpus. [online]

Maps courtesy of IDS Mannheim
Caren Brinckmann, Stefan Kleiner, Ralf Knöbl & Nina Berend. 2008. German Today: an areally extensive corpus of spoken Standard German. Proceedings 6th International Conference on Language Resources and Evaluation. LREC 2008. [online]

Automatic segmentation and alignment: MAUS
Florian Schiel, Christoph Draxler & Jonathan Harrington. 2011. Phonemic Segmentation and Labelling using the MAUS Technique. Workshop New Tools and Methods for Very-Large-Scale Phonetics Research. University of Pennsylvania, 2011, January, 28–31. [online]

Manual alignment and normalization: Praat
Paul Boersma. 2010. Praat, a system for doing phonetics by computer. Glot International 5 (9/10), 341–345.

Annotation and metadata: EXMARaLDA
Thomas Schmidt & Kai Wörner. 2009. EXMARaLDA – Creating, analysing and sharing spoken language corpora for pragmatic research. Pragmatics (19:4), 565–582.

Lemmatization and part-of-speech tagging: TreeTagger
Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing. [online]

Part-of-speech tagset: STTS
Anne Schiller, Simone Teufel, Christine Stöckert & Christine Thielen. 1999. Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). [online]

Converter framework: SaltNPepper
Florian Zipser & Laurent Romary. 2010. A model oriented approach to the mapping of annotation formats using standards. Proceedings of the Workshop on Language Resource and Language Technology Standards, LREC 2010. [online]

Search and visualization interface: ANNIS
Amir Zeldes, Julia Ritz, Anke Lüdeling & Christian Chiarcos. 2009. ANNIS: A Search Tool for Multi-Layer Annotated Corpora. Proceedings of Corpus Linguistics 2009, July, 20–23. [online]

Letzte Aktualisierung: 24. September 2017

Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie

Beschreibung

Zugang

Annotation

Dokumentation

Download

Team & Kontakt

Publikationen

Lehre

Tools & Referenzen