Dokumentation Version 3.0

Korpuslinguistik und Morphologie | Dokumentation Version 3.0

Dokumentation Version 3.0

Dokumentation der dritten Version von Ridges Herbology.

Korpus-Pipeline

Erweiterung von Version 2.0 mit neun weiteren Texten:
Wie sich meniglich, Hortulus Sanitatis, Wund-Arztney, Thesaurus sanitatis, Mysterivm Sigillorvm
Die Einleitung zu der Kräuterkenntnis
Die Eigenschaften aller Heilpflanzen
Vorlesungen über Kräuterkunde
Flora der preussischen Rheinlande
Eine vollständige Liste aller Dokumente dieser Version lässt sich unter Downloads finden.
Transkription, manuelle Erstellung und Korrektur von <dipl>, <clean> <norm>
Manuelle Erstellung und Korrektur von strukturellen und inhaltlichen Annotationen, technische Hilfe in MS Excel mit den Makros DeleteSpaces (Readme) und SearchAndMerge (Readme).
Wortartentagging und Lemmatisierung mit TreeTagger. Anführungszeichen im Text können zu Fehlern führen, weshalb diese maskiert werden sollten. Desweiteren werden Leerzeilen im Text durch den TreeTagger gelöscht, sodass Fehler in der Segmentierung entstehen können. Deshalb sollten diese durch einen beliebigen Tag (z.B. <9>) gefüllt werden und die Option -sgml sollte beim taggen benutzt werden. Diese Tags werden dann nicht getaggt und können anschließend wieder entfernt werden.
Semi-automatische Korrektur der Wortarten in <pos_cor> mit DECCA
Automatische Erstellung von <clean_auto> (Python-Skript und Readme)
Automatische Erstellung von <norm_auto> (Bollmann/Petran/Dipper 2011). Leider ist die Qualität der Normalisierung und Lemmatisierung sowie der Wortarten nicht so gut wie in V2.0. Dies liegt vor allem an der zu geringen Größe des von uns benutzten Dictionaries und des zu kleinen Trainingskorpus für die automatische Normalisierung.
Konvertierung des Korpus nach ANNIS.

Korpus-Design

Um Vergleichbarkeit zu gewährleisten, wählen wir Texte aus einer wissenschaftlichen Disziplin, die idealerweise auf ähnliche Weise im gesamten Untersuchungszeitraum vertreten ist. Für das erste RIDGES-Korpus haben wir den Bereich der Kräuterkunde gewählt. Der Untersuchungszeitraum wurde ursprünglich in 30-jährige Abschnitte unterteilt. In Version 3 kommen neue Texte hinzu, so dass die einzelnen Abschnitte kleiner werden. Da die Verarbeitung älterer Texte aufwendiger ist, variiert die Länge der Texte. Jedes Dokument umfasst ca. 4.000 bis 10.000 Wortformen.

Annotationsebenen

Die Annotationsebenen in den Korpora werden in einer Mehrebenenarchitektur gespeichert und lassen sich in vier Gruppen untergliedern.

Transkription/Normalisierung
Linguistische Annotationen
Strukturelle Annotationen
Inhaltliche Annotationen
Metadaten

Transkription/Normalisierung

Diese Annotationen entsprechen immer genau einem Token. Part-of-speech-Annotationen (Wortarten) und Lemmatisierung wurden mit TreeTagger durchgeführt und von Hand korrigiert.

Annotationsebene und -wert(e)	Beschreibung
dipl Annotationswert(e): Text	Die Transkription von Faksimiles stellt für die korpuslinguistische Aufbereitung zumeist die grundlegende, diplomatische Ebene (dipl). Diese Ebene soll sich grafisch hinsichtlich Orthografie, Getrennt- und Zusammenschreibung und Sonderzeichen möglichst nah am zugrunde liegenden Faksimile orientieren. Grundsätzlich kann so auch entgegen modernen Orthographieregeln segmentiert oder transkribiert werden!
clean Annotationswert(e): Text	Die clean-Ebene enthält erste Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen.
clean_auto Annotationswert(e): Text	Die clean_auto-Ebene enthält erste vollautomatisch erstellte Normalisierungen hinsichtlich Sonderzeichen und grafischer Strukturierungen. So werden u.a. Ligaturen, die nach moderner Rechtschreibung nicht mehr verwendet werden, normalisiert. Grafische Markierungen der einzelnen Texte wie Zeilenumbrüche werden aufgelöst und Sonderzeichen einiger Fonts wie Fraktur auf die heutigen Schriftsätze übertragen.
norm Annotationswert(e): Text	Die norm-Ebene stellt einen weiteren Normalisierungsschritt dar, indem hier die Tokenisierung und die Orthografie einheitlich nach modernen Orthografieregeln (vgl. Duden) angepasst werden.
norm_auto Annotationswert(e): Text	Die norm_auto-Ebene stellt einen automatischen Normalisierungsschritt dar, der mittels des Algorithmus von Bollmann et al. (2011) realisiert wurde. Da diese Ebene vollautomatisch erstellt wurde und keiner manuellen Korrektur unterlag, enthält sie einige Annotationsfehler.

Linguistische Annotationen

Annotationsebene und -wert(e)	Beschreibung
pos Annotationswert(e): STTS	Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset (STTS).
pos_cor Annotationswert(e): STTS	Wortarten-Annotation nach dem Stuttgart-Tübingen-Tagset.
lemma Annotationswert(e): Text (type)	Lemmatisierung: Normalisierung der flektierten Wortformen, Zuordnung der entsprechenden Lexikoneinträge zu jeder Wortform.
hyperlemma Annotationswert(e): Text	In Fällen, in denen semantisch ein Begriff wie Heumonat nicht mehr transparent ist, wird ein modernes Äquivalent, z. B. Heumonat – Juli, angegeben.
foreign Annotationswert(e): foreign	Markiert einen Text, der in einer Fremdsprache geschrieben ist.
foreign_trans Annotationswert(e): trans_to_german trans_from_german trans_from_german_extended trans_to_german_extended	Beschreibung der Zielsprache und der Ausgangssprache einer Übersetzung.
lang Annotationswert(e): ISO 3166-1 alpha-3	Kodiert die konkrete Sprache des im Layer foreign markierten Textes nach ISO Drei-Buchstaben-Code (z. B. lat).

Strukturelle Annotationen

Annotationsebene und -wert(e)	Beschreibung
lb Annotationswert(e): lb	Markierung einer ganzen Zeile.
brace Annotationswert(e): brLeft brRight	Markierung einer Klammer, die Text über mehrere Zeilen zusammenfasst.
brace_dir Annotationswert(e): left	Richtung der Klammer
p Annotationswert(e): p	Markierung eines ganzen Paragraphen.
p_n Annotationswert(e): Number or letter	Markiert die Nummerierung eines Paragraphen.
p_rend Annotationswert(e): initial capital big bold type	Beschreibung der Darstellung eines Paragraphen.
pb Annotationswert(e): pb	Markierung einer ganzen Seite.
pb_n Annotationswert(e): Number or Letter	Seitenzahl.
pb_rend Annotationswert(e): in header: Von Haſelwurtz. Cap. III. in header: Vorred in header: Von Chamillen. Cap. VIII. in header: Vorrede. in header Vorred, signature ´A io`at bottom of page in header: Von Staubwurtz. Cap. II in header: Von Eibisch. Cap. V. in header: Vorred, signature 'A ' at bottom of page in header Vorred, signature'A iiij' at bottom of page in header: Von Wermůt. Cap. I. in header: Vorred, signature 'A iij' at bottom of page in header: Von Drachenwurtz. Cap. IIII. in header: Vorred, signature 'A ij' at bottom of page Ohl zu machen. Zum beſten zu Diſtilliren. Waſſer auß Kräutern vnd dergleichen Auffs beſt zu Diſtilliren. Auß Kräutern vnd dergleichen signature 'A ' at bottom of page Auffs beſt zu Diſtilliren. Waſſer auß Kräutern vnd dergleichen Am beſten zu Diſtilliren.	Beschreibung der Darstellung/Zuordnung einer Seite, mehrerer Seiten.
pb_ana Annotationswert(e): page number should be 7	Interpretation von vermutlich nicht korrekten Seitenzahlangaben.
div1 - div5 Annotationswert(e): div	Eine Sektion, ein Kapitel/Unterkapitel eines Dokuments. Die verschachtelte Tiefe wird explizit von der angegebenen Nummer von div in der PAULA/relANNIS Version angezeigt. Gilt pro Ebene (div1-div5).
div1_type - div5_type Annotationswert(e): appendix book chapter description form herb names name nature parts_preparation_and_usus places place preface postscript power reproduction season section species title time utensils	Beschreibt den Typ/die Art des Kapitels/Unterkapitels. Die Einteilung könne von einem ganzen Buch, über Kapitel bis hin zu Unterkapitel reichen. Dazu können auch registerspezifische Typen wie Ort des Anbaus oder Form einer Pflanze zählen. Gilt pro Ebene (div1-div5).
div1_n - div5_n Annotationswert(e): Number	Markiert eine mit Ziffern oder Buchstaben nummerierte Sektion. Gilt für alle Ebenen (div1-div5).
unclear Annotationswert(e): unclear	Markierung, dass Zeichen eines Tokens oder ein Token bzw. ein Text nicht lesbar sind.
atLeast Annotationswert(e): Number	Geschätzte, minimale Anzahl an nicht lesbaren Zeichen eines Token, die in der Spalte unclear als „unclear“ getagged sind.
atMost Annotationswert(e): Number	Geschätzte, maximale Anzahl an nicht lesbaren Zeichen eines Token, die in der Spalte unclear als „unclear“ getagged sind.
interpretation Annotationswert(e): Text	Interpretationsvorschläge für unleserliche Zeichen/Zeichenketten, die in der Spalte unclear als „unclear“ getagged sind.
figure Annotationswert(e): figure table	Markiert eine Grafik, die im Text eingebettet ist.
figure_rend Annotationswert(e): Drawing of two jars Drawing of three jars Drawing of two glasses Drawing of three glasses Drawing of two alembics Drawing of an instrument Drawing of an EIBISCH. Drawing of a STAUBWURTZ. Drawing of a KAMILLE. Drawing of a HÜHNERDARM.	Beschreibung, was auf dem Bild zu sehen ist (z. B. Darstellung einer Pflanze oder eines Destilliergeräts).
hi Annotationswert(e): hi	Markierung eines irgendwie hervorgehobenen Bereichs.
hi_font Annotationswert(e): antiqua fracture	Beschreibung der Darstellung des hervorgehobenen Bereichs durch Schriftarten/Fonts.
hi_rend Annotationswert(e): italics bold underlined red inicap letter-spacing:1em	Beschreibung der Darstellung des hervorgehobenen Bereichs, z. B. Schriftart, Farben etc.
head Annotationswert(e): head	Markierung einer Überschrift.
head_n Annotationswert(e): Number	Zeigt die Nummerierung einer Überschrift an.
head_rend Annotationswert(e): red and black red brown	Beschreibung der grafischen Darstellung der Überschrift, z. B. Farbe.
note Annotationswert(e): note margin	In einer Spannenannotation wird die gesamte Fußnote mit dem Tag „note“ markiert. Der Text der Fußnoten wird immer am Ende des Absatzes, in dem sie eingepflegt sind, unabhängig davon, ob sich so die Fußnoten sammeln oder erst auf der nachfolgenden Seite realisiert werden müssten, in die dipl-Ebene/Transkription aufgenommen.
ref Annotationswert(e): ref	Referenz einer Fußnote.
ref_target Annotationswert(e): #fZ (Z is a number)	ID der Fußnote, auf die referiert wird. Es wird fortlaufend mit #fZ nummeriert.
ref_type Annotationswert(e): noteAnchor	Art der Referenz, z.B. TEI "noteAnchor".
quote Annotationswert(e): quote	Markiert ein Zitat im Text.
list Annotationswert(e): list	Allgemeine Markierung einer Liste.
list_type Annotationswert(e): simple	Beschreibung der Art der Liste.
item Annotationswert(e): item	Element des Textes, der als Liste in der Ebene list markiert ist.
xml_id Annotationswert(e): fZ (Z is a number)	Bezeichnet die konkrete Nummer der Fußnote in einem Dokument, angefangen mit dem Zähler 1. Fußnoten sind in ihrer Indizierung unabhängig von ihrer tatsächlichen Nummerierung im Text. Der ersten Fußnote wird über xml_id die Kennzeichung f1, der zweiten f2 etc. zugewiesen, selbst wenn sie bspw. im Text die Nummer 86) darstellt oder mit **) markiert ist.

Inhaltliche Annotationen

Diese Annotationen wurden von unseren Studenten entwickelt, um Spannen von Token mit besonderen Eigenschaften auszuzeichnen.

Annotationsebene und -wert(e)	Beschreibung
definition Annotationswert(e): fig expl	Beschreibung oder Erklärung eines auf eine Abbildung bezogenen oder im Text genannten Begriffs.
disease Annotationswert(e): di	Nennung einer Krankheit (Beschwerden, Symptome etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. der Bauch, der weh tut oder Bauchweh.
term Annotationswert(e): t h d	Linguistische Annotation, die einen technischen oder wissenschaftlichen Begriff markiert.
author_ref Annotationswert(e): pron1pl pron1sg pron2sg pron3sg author	Markiert Referenzen des Autors auf sich oder andere Autoren bzw. auf beide.
reader_ref Annotationswert(e): pron1pl pron2sg pron3sg pron2pl address	Markiert Referenzen des Autors auf den Leser.
plant Annotationswert(e): pl	Nennung einer Pflanze (Kräuter wie Bäume wie Blumen etc.) im Text. Es wird jeweils die komplette Phrase, wenn vorhanden auch mit restriktiven Relativsätzen, getagged, z.B. das Kraut, das hinter dem Bahnhof wächst oder Kamille.
property Annotationswert(e): appearance effect smell preparation taste cultivation	Beschreibt den Bezug von Eigenschaften wie Geruch, Aussehen etc. auf eine Referenz (z.B. Kraut).
name Annotationswert(e): name	Markiert Eigennamen.
name_type Annotationswert(e): herb scholar plant person flower tree gardener publisher	Spezifiziert den Typ der Eigennamen.

Metadaten

Diese Annotationen folgen den TEI-P5-Richtlinien.

Annotationsebene und -wert(e)	Beschreibung
meta::author Annotationswert(e): author	Name des Autors.
meta::bibl Annotationswert(e): bibl	Voller bibliographischer Eintrag für die Quelle inklusive der im Korpus annotatierten Seitenzahlen.
meta::date Annotationswert(e): date	Datum der Veröffentlichung, normalerweise das Jahr.
meta::publisher Annotationswert(e): publisher	Verleger.
meta::pubPlace Annotationswert(e): pubPlace	Verlagsort.
meta::title Annotationswert(e): title	Titel der Arbeit, aus dem das Dokument extrahiert wurde.

Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie