Sprach- und literaturwissenschaftliche Fakultät - Korpuslinguistik und Morphologie


Zugang

Die im Projekt erstellten Korpora können online mit dem Such- und Visualisierungstool ANNIS durchsucht werden (ein Login für die aktuelle Version ist nicht erforderlich). Um Zugang zu den Korpora zu erhalten, benutzen Sie die folgenden Links:

 

Version Link Hinweise
ridges.herbology.v9 Korpusreferenzlink  
ridges.herbology.v8

Korpusreferenzlink

 

ridges.herbology.v7

Korpusreferenzlink

 

ridges.herbology.v6

Korpusreferenzlink

 

ridges.herbology.v5:

Korpusreferenzlink

 

ridges.herbology.v4.1:

Korpusreferenzlink

 

ridges.herbology.v4:

Korpusreferenzlink

 

Die veröffentlichten MS EXCEL- und EXMARaLDA-Dateien weisen kleine technische Mängel auf, die dazu führen, dass diese nicht fehlerfrei konvertierbar sind.
ridges.herbology.v3: Korpusreferenzlink

Die automatische Normalisierung (norm_auto) weist Mängel auf, die ab Version 4.0 behoben wurden.

 

ridges.herbology.v2: Korpusreferenzlink
ridges.herbology.v1: Korpusreferenzlink

 

Ridges_Korpusauswahl.PNG

Bitte wählen Sie aus der sich links befindlichen Korporaliste das gewünschte Korpus aus, wie in der Abbildung unten dargestellt. Falls Ihr Browser Probleme bei der Ausführung von ANNIS aufweist, benutzen Sie bitte den frei verfügbaren Mozilla Firefox. Eine vollständige Liste der verfügbaren Annotationsebenen mit verlinkten Beispielanfragen erreichen Sie über die i-Taste neben dem Korpusnamen in der Liste. Die Annotationen sind zusätzlich auf der Dokumentationsseite ausführlich beschrieben. Weitere Informationen zum Such-Interface finden Sie auf der ANNIS-Seite.

 

Wenn Sie einzelne Korpusversionen oder Texte in einem anderen Format herunterladen und bearbeiten möchten, gehen Sie auf 'Download'.

Suche in ANNIS

Beispielsuchanfragen

Die folgenden Suchanfragen und Erläuterungen beziehen sich alle auf die kommende Version 6.0 des RIDGES-Korpus. Sie bauen teilweise aufeinander auf und beziehen sich nicht auf eine konkrete Forschungsfrage. Hierbei ist zu beachten, dass die Suchergebnisse keine fertige Analyse darstellen. Automatische und auch manuelle Annotationen können Fehler enthalten und nicht alle Annotationen sind in jedem RIDGES-Dokument vorhanden (vgl. Annotationsrichtlinien).

 

1)

persname

_i_

author_ref=/author/

Mit dieser Suchanfrage findet man Personennamen, die gleichzeitig auf einen Autoren referieren.

Unter diesem Suchreferenzlink kann man die Suchanfrage und alle dazugehörigen Treffer aufrufen.

 

Beispieltreffer

suche-v8-1.PNG

 

Für diese Abfrage werden zwei Variablen benötigt. Es wird also auf zwei verschiedenen Annotationsebenen gleichzeitig gesucht. In der Annotationsebene <persname> (Zeile 1) sind im Korpus vorkommende Personennamen als Zeichenkette annotiert. Der Wert entspricht jeweils dem genannten Personennamen (vgl. Annotationsrichtlinien). Da in dieser Suchanfrage für die Variable <persname> kein Wert angegeben ist, wird dieser in der Suche nicht spezifiziert. Stattdessen werden schlicht alle möglichen Werte, die in dieser Annotationsebene vorhanden sind und damit unterschiedliche Personennamen im Text markieren, in die Suchanfrage eingeschlossen. In dem Beispieltreffer wäre das also "Galen" (hier in Rot geschrieben, weil die erste Variable der Suchanfrage immer die Farbe Rot zugewiesen bekommt).

In der Annotationsebene <author_ref> (Zeile 3) sind hingegen Referenzen auf Autoren annotiert. Das können Referenzen auf den Autor des Textes selbst (dann hieße der Wert "pron1sg") oder auf weitere Autoren sein. Neben Eigennamen werden so auch Personalpronomina annotiert. Im Gegensatz zur ersten Variable wird hier jedoch der Wert spezifiziert. Es wird der Wert "author" gesucht. Dieser Wert steht für alle Referenzen auf Autoren, die mit Namen ausgeschrieben ist. Pronomina werden hier also beispielsweise nicht gefunden. Deshalb steht im Beispieltreffer (in Violett, die Frabe für die zweitgenannte Variable) auch genau dieser Wert.

Zwischen den beiden Variablen (Zeile 2) steht der Operator _i_ für "Identität" (vgl. ANNIS User Guide, S. 24-25). Das heißt, dass sich die Werte in der Annotationsebene <personenname> und der Wert "author" in der Ebene <author_ref> auf identische Einheiten beziehen sollen. Mit der Suchanfrage möchte man also Personennamen im Korpus finden, die gleichzeitig auf Autoren referieren. Im Beispieltreffer stehen die beiden Werte der verschiedenen Variabeln deshalb genau übereinander.

 

Wichtiger Hinweis: Die Annotationsebene <persname> wurde dem RIDGES-Korpus in der 4.1-Version hinzugefügt. Das heißt, dass diese Annotationsebene nicht in allen Dokumenten des Korpus vorhanden ist. Um herauszufinden, welche Dokumente diese Annotationsebene enthalten, kann man entweder direkt in ANNIS die Korpusmetadaten unter dem Korpusinformationsbutton i einsehen oder in die Annotationsrichtlinien schauen. Genauso sollte man mit allen anderen offenen Fragen zum Korpus verfahren (z.B. welche Werte es für welche Annotationsebenen gibt und was diese bedeuten). Im Folgenden wird nicht mehr darauf eingegangen, welche Annotationsebenen in welchen Dokumenten vorhanden sind. Diese Informationen sind in den oben genannten Quellen vollständig dokumentiert. Wichtig ist immer, im Hinterkopf zu behalten, dass nicht alle Annotationsebenen für jedes Dokument im Korpus annotiert sind.

 

2)

comp_n

_o_

attr_gen

Mit dieser Suchanfrage findet man Komposita mit substantivischem Zweitglied, die innerhalb einer Nominalphrase mit Genitivattribut vorkommen.

Suchreferenzlink

Beispieltreffer

suche-v8-2.PNG

 

 

Ähnlich wie in Beispiel 1) werden in dieser Suchanfrage zwei Variablen miteinander in Beziehung gesetzt. Bei der ersten handelt es sich um die Annotationsebene <comp> (Zeile 1). Hier sind Komposita annotiert, die ein substantivisches Zweitglied besitzen. Diese Ebene enthält nur einen möglichen Wert, nämlich "k" (im Beispiel in Rot gekennzeichnet). Die zweite Annotationsebene <attr_gen> (Zeile 3) markiert sowohl pränominale (Wert "gprä") als auch postnominale Genitive (Wert "gpost"). Da es in <comp> nur einen möglichen Wert gibt und uns der Wert in <attr_gen> egal ist, weil wir sowohl pränominale als auch postnominale Genitive finden wollen, müssen diese in der Suchanfrage nicht spezifiziert werden. Im Beispieltreffer handelt es sich  um ein postnominales Genitivattribut, weshalb hier der Wert "gpost" auftritt (in Violett).  Der Operator _o_ (Zeile 2) steht für "Overlap". Das bedeutet, dass sich die in den beiden Annotationsebenen annotierten Einheiten überlappen sollen, aber nicht komplett identisch abdecken müssen  - wir suchen nämlich Komposita innerhalb einer Nominalphrase mit Genitivattribut und nicht ein Kompositum, das gleichzeitig ein Genitivattribut ist. In dem Beispieltreffer überlappt der Wert "gpost" in <attr_gen> den Wert "k" in <komp>.

 

 

3)

norm=/Kräuter/

_i_

dipl=/(k|K)r(e|aͤ)utt?er/

Mit dieser Suchanfrage findet man verschiedene historische Schreibvarianten, die in der <norm>-Ebene zu der Wortform "Kräuter" normiert worden sind.

Suchreferenzlink

Beispieltreffer

suche-v8-3.PNG

 

Bei der ersten Variable handelt es sich um die <norm>-Ebene (Zeile 1), in der eine orthographische Normalisierung vorgenommen wurde. Die zweite Variable ist die <dipl>-Ebene (Zeile 3). Diese enthält eine diplomatische Transkription, die so nah wie möglich am Original vorgenommen wurde. Auf der <norm>-Ebene wird der  Wert "Kräuter" gesucht. Die zweite Variable <dipl> enthält einen Wert, der reguläre Ausdrücke enthält. Diese ermöglichen Mustersuchen. In dieser Anfrage sind folgende enthalten:

(A|B) → A oder B
A? → A ist optional

Mögliche Werte für  <dipl> sind in dieser Anfrage also "Kreuter", "Kreutter", "kreuter", "kreutter", "Kraͤuter", "Kraͤutter", "kraͤutter" und" kraͤuter". Im Beispieltreffer ist es "kreutter" (violett). 

Für diese Suche wird wieder der Identitätsoperator _i_ verwendet (Zeile 2). Dieses Mal sollen sich zwei Werte aus verschiedenen Textebenen gegenseitig abdecken. Deshalb stehen die beiden gesuchten Werte im Beispieltreffer auch genau übereinander.

 

 

4)

pos!=/(ART|PPOSAT|PDAT|PIAT|PRELAT|PWAT)/

.

pos=/ADJA/

.

pos=/N./

Mit dieser Suchanfrage findet man Nominalphrasen ohne Determinierer, in denen das jeweilige Nomen durch ein Adjektiv modifiziert ist.

Suchreferenzlink

Beispieltreffer

suche-v8-4.PNG

 

Diese Suchanfrage enthält drei Variable-Wert-Paare (Zeile 1, 3, 5). Bei allen Variablen handelt es sich um die <pos>-Ebene, in der Wortarten nach dem STTS kodiert sind. Die Werte der ersten und dritten Variable enthalten wieder reguläre Ausdrücke für Mustersuchen. Bei der ersten (Zeile 1) handelt es sich um den bereits erwähnten Oder-Ausdruck. Hier werden also Alternativen aufgezählt – alles Wortarten, die als Determinierer fungieren können.

Das Ausrufezeichen "!" vor dem "=" im ersten Variable-Wert-Paar ist ein Negationsoperator. Das bedeutet, dass der dazu spezifizierte Wert eben nicht auftreten darf. Es dürfen also als Wert der ersten Variable alle Werte des STTS auftreten, die dort nicht als Alternativen angegeben sind – also alle, die keine Determinierer sind.

Der Punkt in "pos=/N./" (Zeile 5) ist ein Platzhalter für ein beliebiges Zeichen. Das STTS besitzt nur zwei Werte, die mit einem "N" beginnen und ein weiteres Zeichen beinhalten, und zwar "NN" und "NE". Ersteres steht für normale Nomina, Zweiteres für Eigennamen.

Der Punkt jeweils zwischen zwei Variable-Wert-Paaren (Zeile 2, 4) ist kein regulärer Ausdruck, der innerhalb eines Wertes steht, sondern ein Operator wie _o_ oder _i_. Er setzt die Variable-Wert-Paare, zwischen denen er steht, miteinander in Beziehung. Er besagt, dass das zweitgenannte Variable-Wert-Paar dem zuerst genannten linear folgen soll und das drittgenannte dem zweitgenannten.

Diese Anfrage könnte man also folgendermaßen paraphrasieren: Es wird ein Nomen gesucht (Variable 3), das einem Adjektiv folgt (Variable 2) und vor dem Adjektiv dürfen die Werte "ART", " PPOSAT", "PDAT", "PIAT", "PRELAT" und "PWAT" nicht auftreten (Variable 1). Im Beispieltreffer ist die erste Variable der Wert "VVFIN" in Rot, die zweite "ADJA" in Violett (was durch die Suchanfrage genau so gestgelegt ist) und die Dritte "NN" in Grün.

 

 

5)

author_ref=/pron1sg/

.1,5

reader_ref

Mit dieser Suchanfrage findet man eine Referenz auf den Autor in der ersten Person Singular gefolgt von einer beliebigen Referenz auf den Leser.

Suchreferenzlink

Beispieltreffer

suche-v8-5.PNG

 

Für diese Suchanfrage werden zwei Variablen verwendet: <author_ref> (Zeile 1) und <reader_ref> (Zeile 3). Erstere soll den Wert "pron1sg" beinhalten, da wir nur jene Fälle finden möchten, die in der ersten Person Singular vorkommen. Deshalb taucht auch genau dieser Wert im Beispieltreffer auf (in Rot). Die zweite Variable bleibt unspezifiziert. Wieder wird der Punkt-Operator für lineare Abfolge angewandt (Zeile 2). Im Beispieltreffer kommt für diese Variable der Wert "pron2sg" vor.

Dieses Mal benötigen wir jedoch nicht zwangsweise eine direkte Abfolge, sondern auch indirekte. Den erlaubten Abstand zwischen Variable 1 und Variable 2 spezifiziert man, indem man direkt hinter dem Punktoperator angibt, wie hoch der Abstand mindestens sein muss (vor dem Komma) und wie hoch er maximal sein darf (nach dem Komma). Diese Anfrage sagt also, dass zwischen der Referenz auf den Autor und der Referenz auf den Leser ein Abstand von eins bis fünf vorhanden sein soll. Ein Abstand von "1" bedeutet, dass die beiden Variablen direkt aufeinander folgen; ein Abstand von "5" bedeutet, dass dazwischen vier weitere Einheiten stehen. Es werden also sowohl Treffer gefunden, bei denen die Leserreferenz direkt nach der Autorreferenz steht, aber auch solche, bei denen dazwischen mehrere andere Einheiten stehen.

 

 

6)

meta::topic=/.*B.*M.*/

&

pos=/N./

Diese Suchanfrage findet Nomina in Texten, die u.a. die Themen "Botanik" und "Medizin" behandeln.

Suchreferenzlink

Beispieltreffer

suche-v8-6.PNG

 

Nun soll in Kombination mit einem Metadatum gesucht werden. Dafür wird auch das Metadatum wie eine Variable behandelt, nur dass man vor dessen Namen den Zusatz "meta::" ergänzen muss.

Alle in RIDGES behandelten Themen erhalten im Metadatum <topic> (Zeile 1) eine eindeutige Abkürzung. Behandelt ein Text mehrere Themen, dann werden die Abkürzungen alphabetisch geordnet aneinandergereiht. "B" steht für "Botanik" und "M" für "Medizin". Davor, dazwischen und danach sind noch weitere Abkürzungen möglich, die in der Suchanfrage nicht ausgeschlossen werden sollen. Deshalb stehen an diesen Positionen jeweils ein Punkt und ein Sternchen (*). Der Punkt ist, wie bereits erwähnt, ein Platzhalter für ein beliebiges Zeichen. Das Sternchen bezieht sich auf das Zeichen, auf das es folgt, also in diesem Fall auf den Punkt. Und zwar steht es für "beliebig oft, auch 0 Mal". Bezogen auf diesen Fall bedeutet das, dass an den Stellen, an denen ".*" steht, beliebig viele Zeichen auftreten dürfen (was 0 Zeichen mit einschließt). Die zweite Variable in der Suchanfrage ist <pos> mit dem Wert "N." (Zeile 3). Im Beispieltreffer handelt es sich um den konkreten Wert "NN" (eine weitere Möglichkeit wäre "NE" für Eigennamen).

Die Verknüpfung der beiden Variable-Wert-Paare erfolgt durch ein kaufmännisches "&" (Zeile 2). Es sollen also sowohl normale Nomina als auch Eigennamen ausgegeben werden. Mit der gesamten Anfrage möchte man also Nomina finden, die in Texten zu den Themen "Botanik" und "Medizin" vorkommen. Das bedeutet, dass man Treffer in Texten erhalten kann, die nur diese beiden Themen behandeln, aber auch in Texten, die noch weitere Themen aufgreifen.

Hinweise:

1) Möchte man, dass ein Zeichen mindestens ein Mal auftritt, dann verwendet man das Plus-Zeichen (+) anstatt des Sternchens.

2) Metadaten sind nicht in den Annotationen kodiert, sondern nur für ganze Dokumente, bzw. für das gesamte Korpus. Deshalb sind sie in dieser Ansicht nicht dargestellt. Metadaten zu einem Treffer kann man neben der Treffernummer unter dem i aufrufen.

 

7)

clean=/(vor|für).+/

&

lemma=/vornehmlich/

&

#1_o_#2

&

meta::lang_type=/enhg/

Diese Anfrage findet die Lemmata "vornehmlich", die in der <clean>-Ebene sowohl mit "vor-" als auch mit "für-" beginnen können. Außerdem besteht die Einschränkung, dass nur in frühneuhochdeutschen Texten gesucht werden soll.

Suchreferenzlink

Beispieltreffer 1

suche-v8-7-1.PNG

 

Beispieltreffer 2

suche-v8-7-2.PNG

 

Das ist eine komplexere Anfrage, die mehrere bereits behandelte Möglichkeiten der AQL ausnutzt, aber auch einen Schritt weiter geht. Zunächst sei darauf hingewiesen, dass bei komplexeren Suchanfragen nicht wie in den oberen Anfragen die verkürzte Schreibweise, sondern die Klauselschreibweise leichter zu handhaben und teilweise auch notwendig ist. Wenn verschiedene Variablen mehrfach und über Kreuz miteinander in Beziehung gesetzt werden sollen, dann ist diese Schreibweise sinnvoller. Hierbei stehen die Relationsoperatoren nicht zwischen den einzelnen Variable-Wert-Paaren , sondern werden gesondert angegeben. Man listet also zunächst die Variable-Wert-Paare auf, die man mit einbeziehen möchte. Die Reihenfolge ist dabei nicht trivial. Das erstgenannte Variable-Wert-Paar (Zeile 1) erhält von ANNIS die #1, das zweitgenannte (Zeile 3) die #2  zugewiesen usw. Die Relation gibt man dann gesondert an, indem man anstatt der Variable-Wert-Paare ihre jeweilige Nummer angibt (Zeile 5). Zwischen die einzelnen Teile der Suchanfrage (Variable-Wert-Paare und Relationen) wird ein kaufmännisches "&" gesetzt (Zeile . Möchte man außerdem noch nach einem Metadatum filtern, dann wird dieses ebenfalls durch ein "&" hinzugefügt. Hier ist keine gesonderte Relationsangabe notwendig.

Hier nun die Anfrage in einzelnen Schritten: Die erste Variable ist die <clean>-Ebene. Sie enthält einen Wert, der mit "vor-" oder mit "für-" beginnen soll (danach folgt mindestens ein weiteres Zeichen). Im Beispieltreffer kommt der Wert "fürnehmlich" vor (in Rot). Die zweite Variable ist die <lemma>-Ebene. Diese enthält den Wert "vornehmlich", so auch im Beispieltreffer. Die beiden Variablen sollen einander überlappen (Zeile 3). Außerdem sollen nur Texte durchsucht werden, die für das Metadatum "lang_type" den Wert "enhg" (Early New High German) zugewiesen bekommen haben. Es sind also Treffer zu erwarten, die sowohl in der <clean>- als auch in der <lemma>-Ebene "vornehmlich.*" heißen (in <clean> können auch Flexionsendungen dabei sein), aber auch Treffer, die in <clean> "fürnehmlich.*" und in <lemma> "vornehmlich" heißen. Die <clean>-Ebene wurde deshalb gewählt, weil sie keine heute unüblichen Sonderzeichen mehr enthält und diese deshalb in der Anfrage nicht weiter berücksichtigt werden müssen. Auch hier gilt wieder der Hinweis, dass Metadaten nicht in den Annotationen kodiert sind, sondern pro Dokument vergeben werden. Deshalb werden diese im Beispieltreffer nicht angezeigt.

 

Weitere Beispielsuchanfragen

attr_gen _o_ plant=/pl/

Findet Konstruktionen mit Genitivattributen (prä- und postnominal), die einen Pflanzennamen enthalten.

Suchreferenzlink

Beispieltreffer

suche-v8-8.PNG

 

position_verb=/V2/ _o_ pos=/KOUS/

Findet V2-Sätze, die eine unterordnende Konjunktion beinhalten.

Suchreferenzlink

Beispieltreffer

suche-v8-9.PNG

KOUS_sem=/konditional/ _i_ lemma!=/wenn/

Findet konditionale unterordnende Konjunktionen, die nicht das Lemma 'wenn' haben.

Suchreferenzlink

Beispieltreffer

suche-v8-10.PNG