Dokumentation Version 4.1

Korpuslinguistik und Morphologie | Dokumentation Version 4.1

Dokumentation Version 4.1

Dokumentation der vierten, nachbearbeiteten Version von Ridges Herbology.

Korpus-Pipeline

Die Datengrundlage für Ridges Herbology Version 4.1 bildet Ridges Herbology Version 4.0 mit allen dokumentierten Arbeitsschritten.
Folgende Annotationsebenen wurden hizugefügt: <komp>, <komp_orth>, <prot>, <attr_gen> und <strD>, <pos_klein>, <Verbposition>, <Nebensatztyp> und <KOUS_Semantik>. Außerdem erfolgten kleinere Korrekturen in vorhandenen Annotationen.
In Gart der Gesundheit wurden zudem folgende Annotationsebenen hinzugefügt: <personenname>, <werkname>, <krankheitsname>, <form_Krankheit>, <kraeutername>, <kraeutername_normiert>, <sprache_kraeutername>, <form_kraeutername>, <kraeuterzubereitung>, <form_zubereitung>, <nomen>, <bemerkung> und <form_nomen>.
Konvertierung des Korpus nach ANNIS. Für eine ausführliche Beschreibung der Arbeitsschritte, siehe die Anleitung zur Konvertierung.

Korpus-Design

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Für das erste RIDGES-Korpus haben wir den Bereich der Kräuterkunde gewählt. Der Untersuchungszeitraum wurde ursprünglich in 30-jährige Abschnitte unterteilt. In Version 3 und 4 kamen neue Texte hinzu, so dass die einzelnen Abschnitte kleiner wurden. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 4.000 bis 10.000 Wortformen.

Annotationsebenen

Die Annotationsbenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in vier Gruppen untergliedern.

Transkription/Normalisierung
Linguistische Annotationen
Strukturelle Annotationen
Inhaltliche Annotationen
Metadaten

Transkription/Normalisierung

Diese Annotationen entsprechen immer genau einem Token. Part-of-speech-Annotationen (Wortarten) und Lemmatisierung wurden mit TreeTagger durchgeführt und von Hand korrigiert.

Annotationsebene und -wert(e)	Beschreibung
dipl Annotationswert(e): Text	Die Transkription von Faksimiles stellt für die korpuslinguistische Aufbereitung zumeist die grundlegende, diplomatische Ebene (dipl). Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich kann so auch entgegen modernen Orthographieregeln segmentiert oder transkribiert werden. Eine Unicode-Tabelle mit Sonderzeichen wurde dabei zu Hilfe genommen. Zeilenumbrüche sind gemäß der Textvorlage markiert, gewöhnlich mit 'U+2E17'.
clean Annotationswert(e): Text	Die clean-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen. Die neuen Dokumente aus Version 4.0 stellen neue Anforderungen an die automatisch erstellte clean-Ebene. Mit Makra versehene Vokale können nicht länger kontextabhängig normalisiert werden. Deshalb werden ab Version 4.0 für Token, die Vokale mit Makra enthalten alle möglichen Formen dieser Token in der clean angegeben. Die verschiedenen Formen werden durch '\|' getrennt (zum Beispiel: 'auſzwēdig' to: 'auszwemdig\|auszwendig'). Für eine komplette Auflistung aller Ersetzungen, die für die Erstellung der clean-Ebene gemacht wurden, siehe die Readme zum Skript, das zur Erstellung benutzt wurde.
norm Annotationswert(e): Text	Die norm-Ebene stellt einen weiteren Normalisierungsschritt dar, indem hier die Tokenisierung und die Orthografie einheitlich nach modernen Orthografieregeln (vgl. Duden) angepasst werden, wobei die Flexion, wie z.B. Kasuszuweisungen, nicht berücksichtigt wird.

Linguistische Annotationen

Annotationsebene und -wert(e)	Beschreibung
pos Annotationswert(e): STTS	Semi-automatisch korrigierte (DECCA) Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset (STTS).
lemma Annotationswert(e): Text (type)	Lemmatisierung: Normalisierung der flektierten Wortformen, Zuordnung der entsprechenden Lexikoneinträge zu jeder Wortform.
hyperlemma Annotationswert(e): Text	In Fällen, in denen semantisch ein Begriff wie Heumonat nicht mehr transparent ist, wird ein modernes Äquivalent, z. B. Heumonat – Juli, angegeben.
foreign Annotationswert(e): foreign	Markiert einen Text, der in einer Fremdsprache geschrieben ist.
foreign_trans Annotationswert(e): trans_to_german trans_from_german trans_from_german_extended trans_to_german_extended	Beschreibung der Zielsprache und der Ausgangssprache einer Übersetzung.
lang Annotationswert(e): ISO 639-2	Kodiert die konkrete Sprache des im Layer foreign markierten Textes nach ISO Drei-Buchstaben-Code (z. B. lat).
komp Annotationswert(e): k	Komposition. Markiert alle im Korpus enthaltenen zusammen, getrennt oder mit Bindestrich geschriebenen Komposita.
komp_orth Annotationswert(e): zs gtr bs lb1 lb2	Beschreibt die Orthographie der in der Ebene "komp" annotierten Komposita: zs: zusammengeschrieben, gtr: getrennt geschrieben, bs: Bindestrichmarkierung (innerhalb einer Zeile), lb1: unterbrochen durch Zeilenumbruch (ohne Bindestrichmarkierung), lb2: unterbrochen durch Zeilenumbruch (mit Bindestrichmarkierung).
prot Annotationswert(e): prot1 prot2 prot3	Weist jedem Kompositum in der Ebene komp einen Prototypen zu. Der Prototyp gibt an, wie wahrscheinlich ein Vorkommen ein Kompositum ist, dabei gilt: prot1: sicher als Kompositum zu identifizieren, prot2: sehr wahrscheinlich Kompositum und prot3: Zweifelsfall (nicht in der Ebene "komp" markiert).
attr_gen Annotationswert(e): gprä gpost	Markiert alle im Korpus enthaltenen Nominalphrasen, die ein Genitivattribut enthalten, gprä: pränominales Genitivattribut und gpost: postnominales Genitivattribut.
strD Annotationswert(e): strD	Strukturelle Destruktion. Markiert alle im Korpus enthaltenen koordinierten Komposita ("strukturelle Destruktionen"; z.B.: gelb⸗ und Waſſerſucht).
personenname Annotationswert(e): String	NA
werkname Annotationswert(e): String	NA
krankheitsname Annotationswert(e): String	NA
form_Krankheit Annotationswert(e): String	NA
kraeutername Annotationswert(e): String	NA
kraeutername_normiert Annotationswert(e): String	NA
sprache_kraeutername Annotationswert(e): String	NA
form_kraeutername Annotationswert(e): String	NA
kraeuterzubereitung Annotationswert(e): String	NA
form_zubereitung Annotationswert(e): String	NA
nomen Annotationswert(e): String	NA
form_nomen Annotationswert(e): String	NA
bemerkung Annotationswert(e): String	NA
pos_klein Annotationswert(e): reduziertes STTS	Wortarten-tagging mit reduziertem STTS. Bestimmte Tags wurden dabei zusammengefasst, z.B. $., $,, and $( zu ZEICHEN
Verbposition Annotationswert(e): V2 Vletzt V? V1	Verbposition.V2 gibt dabei Verbzweitstellung in einem Nebensatz mit subordinierender Konjunktion an. Vletzt markiert dabei Verbletztstellung in einem Nebensatz mit subordinierender Konjunktion. V? markiert eine unklare Verbposition in einem Nebensatz mit subordinierender Konjunktion.V1 gibt Verberststellung in einem Nebensatz mit subordinierender Konjunktion an.
Nebensatztyp Annotationswert(e): Adverbial Attribut Komplement	Nebensatztyp. Adverbial: Adverbiale Funktion eines Nebensatzes mit subordinierender Konjunktion. Attribut: Attributive Funktion eines Nebensatzes mit subordinierender Konjunktion. Komplement: Komplementfunktion eines Nebensatzes mit subordinierender Konjunktion.
KOUS_Semantik Annotationswert(e): additiv final k.a. kausal konditional konsekutiv konzessiv modal temporal	KOUS_Semantik. additiv: Additive Semantik einer subordinierenden Konjunktion. final: Finale Semantik einer subordinierenden Konjunktion. k.a.: Nicht-analysierbare Semantik einer subordinierenden Konjunktion. kausal: Kausale Semantik einer subordinierenden Konjunktion. konditional: Konditionale Semantik einer subordinierenden Konjunktion. konsekutiv: Konsekutive Semantik einer subordinierenden Konjunktion. konzessiv: Konzessive Semantik einer subordinierenden Konjunktion. modal: Modale Semantik einer subordinierenden Konjunktion. temporal: Temporale Semantik einer subordinierenden Konjunktion.

Strukturelle Annotationen

Annotationsebene und werte	Beschreibung
lb Annotationswert(e): lb	Markierung einer ganzen Zeile.
brace Annotationswert(e): brLeft brRight	Markierung einer Klammer, die Text über mehrere Zeilen zusammenfasst.
brace_dir Annotationswert(e): left	Richtung der Klammer
p Annotationswert(e): p	Markierung eines ganzen Paragraphen.
p_n Annotationswert(e): Integer or letter	Markiert die Nummerierung eines Paragraphen.
p_rend Annotationswert(e): initialCapital bigBoldType	Beschreibung der Darstellung eines Paragraphen.
pb Annotationswert(e): pb	Markierung einer ganzen Seite.
pb_n Annotationswert(e): Integer or Letter	Seitenzahl.
pb_rend Annotationswert(e): vonHaſelwurtz.Cap.III. vonChamillen.Cap.VIII. vorrede. vorred vonStaubwurtz.Cap.II. vonEibisch.Cap.V. vonWermůt.Cap.I. vonDrachenwurtz.Cap.IIII. ohlZuMachen. zumBeſtenZuDiſtilliren. waſſerAußKräuternVndDergleichen auffsBeſtZuDiſtilliren. außKräuternVndDergleichen waſſerAußKräuternVndDergleichen amBeſtenZuDiſtilliren.	Beschreibung der Darstellung/ Zuordnung einer Seite, mehrerer Seiten.
pb_ana Annotationswert(e): Integer	Korrektur/ Interpretation von vermutlich nicht korrekten Seitenzahlangaben.
div1 - div5 Annotationswert(e): divINT	Eine Sektion, ein Kapitel/Unterkapitel eines Dokuments. Die verschachtelte Tiefe wird explizit von der angegebenen Nummer von div (INT) in der PAULA/relANNIS Version angezeigt. Gilt pro Ebene (div1-div5).
div1_type - div5_type Annotationswert(e): appendix book chapter description form herb names name nature parts_preparation_and_uses places place preface power reproduction season section species title time utensils	Beschreibt den Typ/die Art des Kapitels/Unterkapitels. Die Einteilung könne von einem ganzen Buch, über Kapitel bis hin zu Unterkapitel reichen. Dazu können auch registerspezifische Typen wie Ort des Anbaus oder Form einer Pflanze zählen. Gilt pro Ebene (div1-div5).
div2_n - div3_n Annotationswert(e): Integer	Markiert eine mit Ziffern oder Buchstaben nummerierte Sektion. Gilt für die Ebenen div2-div3.
unclear Annotationswert(e): unclear	Markierung, dass Zeichen eines Tokens oder ein Token bzw. ein Text nicht lesbar sind.
atLeast Annotationswert(e): Integer	Geschätzte, minimale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
atMost Annotationswert(e): Integer	Geschätzte, maximale Anzahl an nicht lesbaren Zeichen eines Token, die in der Annotationsebene unclear als „unclear“ getagged sind.
interpretation Annotationswert(e): Text	Interpretationsvorschläge für unleserliche Zeichen/Zeichenketten, die in der Annotationsebene unclear als „unclear“ getagged sind.
figure Annotationswert(e): figure table	Markiert eine Grafik oder Tabelle, die im Text eingebettet ist.
figure_rend Annotationswert(e): drawingOfTwoJars drawingOfThreeJars drawingOfTwoGlasses drawingOfThreeGlasses drawingOfTwoAlembics drawingOfAnInstrument drawingOfAnEibisch drawingOfAStaubwurtz drawingOfAKamille drawingOfAHühnerdarm drawingOfAHelmet drawingOfAFilter drawingOfAWaldenburgischerKolben drawingOfAHaselwurtz drawingOfADrachenwurtz drawingOfAGauchheyl drawingOfADill drawingOfAHauswurz	Beschreibung, was auf einer Grafik (annotiert mit figure) zu sehen ist (z. B. Darstellung einer Pflanze oder eines Destilliergeräts).
hi Annotationswert(e): hi	Markierung eines irgendwie hervorgehobenen Bereichs.
hi_font Annotationswert(e): antiqua gothic	Beschreibung von Schriftartenänderungen, wobei die vorwiegende Schriftart als default-Wert gesetzt wurde.
hi_rend Annotationswert(e): antiqua bold end iniCap italics letter-spacing:1em red	Beschreibung der Darstellung des hervorgehobenen Bereichs, z. B. Schriftart, Farben etc.
head Annotationswert(e): head	Markierung einer Überschrift.
head_n Annotationswert(e): Integer	Zeigt die Nummerierung einer Überschrift an.
head_rend Annotationswert(e): brown	Beschreibung der grafischen Darstellung der Überschrift, z. B. Farbe.
note Annotationswert(e): note margin end	In einer Spannenannotation wird die gesamte Fußnote mit dem Tag „note“ markiert. Der Text der Fußnoten wird immer am Ende des Absatzes, in dem sie eingepflegt sind, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.
ref Annotationswert(e): ref	Referenz einer Fußnote.
ref_target Annotationswert(e): #fINT	ID der Fußnote, auf die referiert wird. Es wird fortlaufend mit #fZ nummeriert.
ref_type Annotationswert(e): noteAnchor	Art der Referenz, z.B. TEI "noteAnchor".
quote Annotationswert(e): quote	Markiert ein Zitat im Text.
list Annotationswert(e): list	Allgemeine Markierung einer Liste.
list_type Annotationswert(e): simple	Beschreibung der Art der Liste.
item Annotationswert(e): item	Element des Textes, der als Liste in der Ebene list markiert ist.
xml_id Annotationswert(e): fINT	Bezeichnet die konkrete Nummer der Fußnote in einem Dokument, angefangen mit dem Zähler 1. Fußnoten sind in ihrer Indizierung unabhängig von ihrer tatsächlichen Nummerierung im Text. Der ersten Fußnote wird über xml_id die Kennzeichung f1, der zweiten f2 etc. zugewiesen, selbst wenn sie bspw. im Text die Nummer 86) darstellt oder mit **) markiert ist.

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und werte	Beschreibung
definition Annotationswert(e): fig expl	Beschreibung (fig) oder Erklärung (expl) eines auf eine Abbildung bezogenen oder im Text genannten Begriffs.
disease Annotationswert(e): di	Nennung einer Krankheit (Beschwerden, Symptome etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. der Bauch, der weh tut oder Bauchweh.
term Annotationswert(e): t h d j	Linguistische Annotation, die einen technischen oder wissenschaftlichen Begriff markiert, unterschieden in term (t), herb (h) und disease (d). Bei 'j' handelt es sich höchstwahrscheinlich um einen Tippfehler.
author_ref Annotationswert(e): author include other proin1sg pron1pl pron1sg pron2sg pron3sg self	Markiert Referenzen des Autors auf sich oder andere Autoren bzw. auf beide.
reader_ref Annotationswert(e): address adress pron1pl pron2pl pron2sg pron3sg reader	Markiert Referenzen des Autors auf den Leser.
plant Annotationswert(e): pl	Nennung einer Pflanze (Kräuter wie Bäume wie Blumen etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. das Kraut, das hinter dem Bahnhof wächst oder Kamille.
property Annotationswert(e): appearance cultivation effect preparation smell taste	Beschreibt den Bezug von Eigenschaften wie Geruch, Aussehen etc. auf eine Referenz (z.B. Kraut).
name Annotationswert(e): name	Markiert Eigennamen.
name_type Annotationswert(e): flower gardener herb person plant publisher scholar tree	Spezifiziert den Typ der Eigennamen.

Metadaten

Diese Annotationen folgen den TEI-P5-Richtlinien.

Annotationsebene und werte	Beschreibung
meta::author Annotationswert(e): Text	Name des Autors.
meta::bibl Annotationswert(e): Text	Voller bibliographischer Eintrag für die Quelle inklusive der im Korpus annotatierten Seitenzahlen.
meta::date Annotationswert(e): Integer	Datum der Veröffentlichung, normalerweise das Jahr.
meta::publisher Annotationswert(e): Text	Verleger.
meta::pubPlace Annotationswert(e): Text	Verlagsort.
meta::title Annotationswert(e): Text	Titel der Arbeit, aus dem das Dokument extrahiert wurde.

Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie