BeMaTaC
This website is also available in English.
Beschreibung
Das Berlin Map Task Corpus (BeMaTaC) ist ein frei verfügbares Korpus gesprochener Sprache. Es besteht aus einem L1-Subkorpus, welches mit deutschen Muttersprachler/innen aufgenommen wird, und einem identisch angelegten L2-Subkorpus mit fortgeschrittenen Lerner/innen von Deutsch als Fremdsprache. BeMaTaC verwendet ein Map-Task-Design, hierbei instruiert ein/e Sprecher/in (sog. Instructor) eine/n andere/n Sprecher/in (sog. Instructee) eine Route auf einer Karte mit Landmarken zu reproduzieren. Die Sprecher/innen können sich nicht gegenseitig sehen und können daher nicht non-verbal kommunizieren. Die Dialoge werden mit zwei separat platzierten Mikrophonen aufgezeichnet, zusätzlich wird ein Video aufgezeichnet, welches die zeichnende Hand des Instructees zeigt. Die Transkriptionen sind konsistent tokenisiert, zeitaligniert und auf verschiedenen und einfach erweiterbaren Ebenen annotiert. Umfassende und anonymisierte Metadaten stehen zu jedem Dialog zur Verfügung.
Neues Release Das aktuelle Release 3.0 enthält ein L1-Subkorpus mit 12 Dialogen (66 Minuten, 8900 normalisierte Token) sowie ein L2-Subkorpus mit 5 Dialogen (77 Minuten, 9223 normalisierten Token).
Instructor | Instructee |
Zugang
BeMaTaC ist über ANNIS, ein browserbasiertes Open-Source-Such- und Visualisierungstool für tief annotierte Korpora, zugänglich.
Annotation
Das aktuelle Release 2.1 / 2013-02.1 enthält folgende Ebenen:
- Orthographienahe Transkription mit Fillern, Wortabbrüchen, umgangssprachlichen Zusammenziehungen und idiosynkratischer Aussprache
- Normalisierte orthographische Transkription
- Automatisch generierte Lemmatisierung
- Automatisch generierte Wortartentags unter Verwendung des STTS (Stuttgart-Tübingen-TagSet)
- Syntaktisch motivierte Äußerungsspannen
- Backchanneling (im L1-Subkorpus nur Backchanneling des Instructees)
- Disfluencies: Filler (gefüllte Pausen), Wortdehnungen, Aussprachefehler, Explicit editing terms und Wiederholungen
- Reparaturen: Reparandum, Interregnum, Reparans
- Reparatursubkategorisierungen: Wiederholungen, Ersetzungen, Einfügungen
- Extralinguistische Ereignisse
- Pausen (ungefüllte Pausen)
- Tokenlänge
Die folgenden Daten sind als Teil des NoSta-D-Korpus verfügbar:
- Syntaktische Dependenzen
- Named entitiy recognition and disambiguation
- Koreferenzen
Wir arbeiten derzeit an folgenden Annotationen:
- Automatische Annotation von Pausen, Fillern und Wiederholungen
- Verbessertes Wortartentagging durch Einbezug von Äußerungsspannen
- Semi-automatische Normalisierung
- Manuell korrigierte Wortartentags (L1-Subkorpus)
Längerfristige Annotationspläne:
- Hyperlemma-Annotation für idiosynkratische Ausdrücke
- Manuell korrigierte Lemmatisierung
- Manuell korrigierte Wortartentags (L2-Subkorpus)
- Phonetische/phonologische Transkription/Annotation
- Syntaktische Phänomene
- Informationsstruktur
Dokumentation
Die folgenden Seiten beziehen sich auf das jeweils neueste Release, frühere Versionen können Daten enthalten, die mit diesen Richtlinien inkompatibel sind.
- Metadaten
- Frequenzen
- Erhebung
- Transkriptionsrichtlinien
- Allgemeine Annotationsrichtlinien und Tagsets
- Diskursannotationsrichtlinien und Tagsets
- Versionsgeschichte
Download
BeMaTaC ist unter einer Creative Commons Attribution 3.0 Unported License lizenziert.
Wenn Sie unser Korpus für Ihre Forschung verwenden oder BeMaTaC mit weiteren Annotationen erweitern möchten, schreiben Sie uns bitte.
L1-Subkorpus: Release 2.1 / 2013-02.1
- EXMARaLDA-Partituren (ZIP-Archiv, 447 KB)
- Audiodateien (WAVE) (ZIP-Archiv, 565 MB)
- Videodateien (QuickTime) (ZIP-Archiv, 5,79 GB)
- Videodateien (WebM) (ZIP-Archiv, 147 MB)
- Map-Task-Karten (ZIP-Archiv, 32 MB)
L2-Subkorpus: Release 2.1 / 2013-02.1
- EXMARaLDA-Partituren (ZIP-Archiv, 479 KB)
- Audiodateien (WAVE) (ZIP-Archiv, 525 MB)
- Audiodateien (mp3) (ZIP-Archiv, 70,2 MB)
- Map-Task-Karten (ZIP-Archiv, 22,8 MB)
Andere Releases
- Syntaktische Dependenzen, Named entities und Koreferenzen sind als Teil des NoSta-D-Korpus verfügbar.
- Frühere Releases sind im Bereich Versionsgeschichte zum Download verfügbar.
Team & Kontakt
- Für weitere Informationen oder Anfragen kontaktieren Sie bitte Simon Sauer.
- Assoziiert: Malte Belz, Oxana Rasskazova
- Ehemalige Mitglieder: Linda Giesel, Daisy Krüger, Elisabeth Lühr, Isabelle Nunberger, Myriam Klapi, Rosalia Schultze-Kraft, Melanie Siemund and Albina Töws
Publikationen
Wie zitiere ich BeMaTaC?
-
Bitte immer diese Webseite zitieren und zwar in der folgenden Form: http://u.hu-berlin.de/bematac
-
Wenn Ihre Zitatanforderungen dies verlangen, können Sie Simon Sauer als Herausgeber zitieren.
-
Wenn Ihre Zitatanforderungen einen Fachaufsatz verlangen, können Sie folgendes Papier zitieren:
-
Simon Sauer & Anke Lüdeling. 2016. Flexible Multi-Layer Spoken Dialogue Corpora. International Journal of Corpus Linguistics, Volume 21, Issue 3, 2016, Special Issue: Compilation, Transcription, Markup and Annotation of Spoken Corpora, 419–438.
-
-
Zusätzlich zur Webseite können Sie folgende Poster zitieren:
-
Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Berlin Map Task Corpus – A deeply annotated multimodal map-task corpus of spoken learner and native German. DGfS-CL 2013.
[http://korpling.german.hu-berlin.de/bematac/publications/Giesel-et-al_2013_DGfS-CL-2013.pdf] -
Simon Sauer & Oxana Rasskazova. 2014. BeMaTaC – eine digitale multimodale Ressource für Sprach- und Dialogforschung. Workshop Grenzen überschreiten – Digitale Geisteswissenschaft heute und morgen, Digital Humanities Berlin 2014.
[http://korpling.german.hu-berlin.de/bematac/publications/Sauer-Rasskazova_2014_3WS-DHB.pdf]
-
-
Beim Zitieren von spezifischen Daten aus dem Korpus geben Sie bitte das Subkorpus (L1 oder L2), die Korpusversion (z.B. 2013-02.1), das Dokument (z.B. 2011-12-14-A) und den Tokenbereich (in der tok-Ebene dargestellt) an.
2017
- Malte Belz, Simon Sauer, Anke Lüdeling, Christine Mooshammer. 2017. Fluently disfluent? Pauses and Repairs of Advanced Learners and Native Speakers of German. International Journal of Learner Corpus Research, Volume 3, Issue 2, 2017, Special Issue: Segmental, Prosodic and Fluency Features in Phonetic Learner Corpora. 118-148. [https://doi.org/10.1075/ijlcr.3.2.02bel]
2016
- Simon Sauer & Anke Lüdeling. 2016. Flexible Multi-Layer Spoken Dialogue Corpora. International Journal of Corpus Linguistics, Volume 21, Issue 3, 2016, Special Issue: Compilation, Transcription, Markup and Annotation of Spoken Corpora, 419–438. [Vorversion]
2015
- Malte Belz, Simon Sauer, Anke Lüdeling, Christine Mooshammer. 2015. Repair Behaviour of Advanced German Learners in the Berlin Map Task Corpus. IFCASL Workshop on Phonetic Learner Corpora, satellite workshop of ICPhS2015, Glasgow, 12.08.2015.
- Anke Lüdeling, Malte Belz, Hagen Hirschmann, Martin Klotz, Carolin Odebrecht, Laura Perlitz, Simon Sauer, Vivian Voigt. 2015. BeMaTaC, Falko, RIDGES. Linguistische Mehrebenenkorpora für Nichtstandard-Varietäten des Deutschen. Digital-Humanities-Tag 2015, Philosophische Fakultät II, Humboldt-Universität zu Berlin. [Poster]
- Simon Sauer. 2015. BeMaTaC: Ein tief annotiertes multimodales Map-Task-Korpus gesprochener Lerner- und Muttersprache. Gesprochene Fremdsprache Deutsch — Forschung und Vermittlung, Universidade de Lisboa, 26.—28.02.2015. [Abstract]
2014
- Malte Belz. 2014. Managing referential mismatches in German map task dialogues. RefNet Workshop, Edinburgh, 31.08.2014. [Abstract]
- Oxana Rasskazova, Simon Sauer, Christine Mooshammer. 2014. Berlin Dialog Corpus (BeDiaCo) – ein multimodales Korpus für Konvergenz- und Dialogforschung. Workshop Sprachdatenbanken – von der Aufnahme zur Publikation, CLARIN-D. [Poster]
- Simon Sauer & Oxana Rasskazova. 2014. BeMaTaC – eine digitale multimodale Ressource für Sprach- und Dialogforschung. Workshop Grenzen überschreiten – Digitale Geisteswissenschaft heute und morgen, Digital Humanities Berlin 2014. [Poster]
- Malte Belz. 2014. Repair disfluencies in German native and non-native speech. Linguistic Evidence 2014. [Poster]
2013
- Myriam Klapi. 2013. Disfluency Patterns: A Contrastive Corpus Study. Masterarbeit. Humboldt-Universität zu Berlin, Dezember 2013.
- Malte Belz. 2013. Disfluencies und Reparaturen bei Muttersprachlern und Lernern – eine kontrastive Analyse. Masterarbeit. Humboldt-Universität zu Berlin, November 2013. [online]
- Oxana Rasskazova & Simon Sauer. 2013. BeMaTaC: ein multimodales Map-Task-Dialogkorpus. Pre-conference workshop Gesprochene Sprache und Sprachverarbeitung, GSCL 2013. [Abstract]
- Anke Lüdeling. 2013. Corpora of Spoken Language. Eingeladener Vortrag. From Hand to Mouth: A Dialogue between Spoken and Sign Language Research 2013. [Folien]
- Malte Belz & Myriam Klapi. 2013. Pauses following Fillers in L1 and L2 German Map Task Dialogues. Proceedings of Disfluency in Spontaneous Speech. DiSS 2013, 9–12. [online]
- Clara Becker. 2013. Doing Backchanneling – Verhalten von Frauen und Männern beim Backchanneling im aufgabenorientierten Dialog. Bachelorarbeit. Humboldt-Universität zu Berlin, Juli 2013. [online]
- Simon Sauer & Anke Lüdeling. 2013. BeMaTaC: A Flexible Multilayer Spoken Dialogue Corpus for Contrastive SLA Analyses. ICAME 34, 46–47. [Abstract]
- Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Gesprochene Muttersprache vs. Lernersprache – Aufbau und Auswertung eines Korpus. Forschendes Lernen an der Humboldt-Universität zu Berlin, 81–86. [online]
- Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer. 2013. Berlin Map Task Corpus – A deeply annotated multimodal map-task corpus of spoken learner and native German. DGfS-CL 2013. [Poster]
Lehre
Ein wichtiges Ziel von BeMaTaC ist die Förderung der Nutzung von Korpora und das Unterrichten des notwendigen Fachwissens. Dies wird nicht nur durch die Verwendung von BeMaTaC-Daten in Lehrveranstaltungen der Linguistik, sondern auch durch die aktive Erweiterung des Korpus im Unterricht erreicht.
Wintersemester 2014/2015
- TUT Nichtstandardvarietäten im Deutschen.
Julia Kostka, Pia Linscheid, Kristina Sommer, Humboldt-Universität zu Berlin.
Wintersemester 2013/2014
- TUT Korpusdesign und gesprochene Sprache – BeMaTaC.
Oxana Rasskazova & Simon Sauer, Humboldt-Universität zu Berlin.
Sommersemester 2013
- Q-TUT Berlin Map Task Corpus – Korpusdesign und gesprochene Sprache.
Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer, Humboldt-Universität zu Berlin.
Wintersemester 2012/2013
- Q-TUT Gesprochene Muttersprache vs. Lernersprache – Aufbau und Auswertung eines Korpus.
Linda Giesel, Myriam Klapi, Daisy Krüger, Isabelle Nunberger, Oxana Rasskazova, Simon Sauer, Humboldt-Universität zu Berlin. - HS Corpus Annotation of Information Structure.
Kordula De Kuthy & Detmar Meurers, Eberhard Karls Universität Tübingen.
Wintersemester 2011/2012
- SE Gesprochene Lernersprache.
Anke Lüdeling & Bernd Pompino-Marschall, Humboldt-Universität zu Berlin.
Tools & Referenzen
- Original map-task design by HCRC
Anne H. Anderson, Miles Bader, Ellen Gurman Bard, Elizabeth Boyle, Gwyneth Doherty, Simon Garrod, Stephen Isard, Jacqueline Kowtko, Jan McAllister, Jim Miller, Catherine Sotillo, Henry Thompson & Regina Weinert. 1991. The HCRC Map Task Corpus. Language and Speech 34, 351–366.
- Maps courtesy of IDS Mannheim
Caren Brinckmann, Stefan Kleiner, Ralf Knöbl & Nina Berend. 2008. German Today: an areally extensive corpus of spoken Standard German. Proceedings 6th International Conference on Language Resources and Evaluation. LREC 2008. [online]
- Manual alignment and normalization: Praat
Paul Boersma. 2010. Praat, a system for doing phonetics by computer. Glot International 5 (9/10), 341–345.
- Annotation and metadata: EXMARaLDA
Thomas Schmidt & Kai Wörner. 2009. EXMARaLDA – Creating, analysing and sharing spoken language corpora for pragmatic research. Pragmatics (19:4), 565–582.
- Lemmatization and part-of-speech tagging: TreeTagger
Helmut Schmid. 1994. Probabilistic Part-of-Speech Tagging Using Decision Trees. Proceedings of International Conference on New Methods in Language Processing. [online]
- Converter framework: SaltNPepper
Florian Zipser & Laurent Romary. 2010. A model oriented approach to the mapping of annotation formats using standards. Proceedings of the Workshop on Language Resource and Language Technology Standards, LREC 2010. [online]
- Search and visualization interface: ANNIS
Amir Zeldes, Julia Ritz, Anke Lüdeling & Christian Chiarcos. 2009. ANNIS: A Search Tool for Multi-Layer Annotated Corpora. Proceedings of Corpus Linguistics 2009, July, 20–23. [online]
Letzte Aktualisierung: 24. September 2017