Rapidly developing NLP applications for content curation.
Moreno-Schneider, J.; Ostendorff, M.; Schulz, K.; Zaczynska, K.; Kintzel, F.; and Rehm, G.
Language Resources and Evaluation. December 2024.
Paper
doi
link
bibtex
abstract
@article{moreno-schneider_rapidly_2024,
title = {Rapidly developing {NLP} applications for content curation},
issn = {1574-0218},
url = {https://doi.org/10.1007/s10579-024-09774-4},
doi = {10.1007/s10579-024-09774-4},
abstract = {Time and again we are faced, in a number of collaborative research projects, with the challenge of interconnecting various language processing tools to implement certain industry-driven use cases focusing, for the most part, upon digital content curation processes. In this paper we first describe several of the relevant projects and their technology platforms, followed by a description of the corresponding use cases and their requirements. The content curation platform we focus upon in this article and which has been implemented as a prototype makes use of a large number of NLP services, which we also build upon for other use cases and prototypes. In addition to the implemented NLP services, the article presents a workflow manager for the flexible creation and customisation of processing workflows that make use of the above mentioned NLP services. Based on the four key principles of generality, flexibility, scalability and efficiency, we present the first version of the workflow manager by providing details on its custom definition language, explaining the communication components and the general system architecture and setup. The paper also addresses challenges in interoperability across different NLP tasks and hardware-based resource use.},
language = {en},
urldate = {2024-12-09},
journal = {Language Resources and Evaluation},
author = {Moreno-Schneider, Julian and Ostendorff, Malte and Schulz, Konstantin and Zaczynska, Karolina and Kintzel, Florian and Rehm, Georg},
month = dec,
year = {2024},
keywords = {Applications, Curation, Curation technologies, LR infrastructures and architectures, Language technology, NLP, Platform, Systems, Text analytics, Tools},
}
Time and again we are faced, in a number of collaborative research projects, with the challenge of interconnecting various language processing tools to implement certain industry-driven use cases focusing, for the most part, upon digital content curation processes. In this paper we first describe several of the relevant projects and their technology platforms, followed by a description of the corresponding use cases and their requirements. The content curation platform we focus upon in this article and which has been implemented as a prototype makes use of a large number of NLP services, which we also build upon for other use cases and prototypes. In addition to the implemented NLP services, the article presents a workflow manager for the flexible creation and customisation of processing workflows that make use of the above mentioned NLP services. Based on the four key principles of generality, flexibility, scalability and efficiency, we present the first version of the workflow manager by providing details on its custom definition language, explaining the communication components and the general system architecture and setup. The paper also addresses challenges in interoperability across different NLP tasks and hardware-based resource use.
SEFLAG: Systematic Evaluation Framework for NLP Models and Datasets in Latin and Ancient Greek.
Schulz, K.; and Deichsler, F.
In Hämäläinen, M.; Öhman, E.; Miyagawa, S.; Alnajjar, K.; and Bizzoni, Y., editor(s),
Proceedings of the 4th International Conference on Natural Language Processing for Digital Humanities, pages 247–258, Miami, USA, November 2024. Association for Computational Linguistics
Paper
link
bibtex
abstract
@inproceedings{schulz_seflag_2024,
address = {Miami, USA},
title = {{SEFLAG}: {Systematic} {Evaluation} {Framework} for {NLP} {Models} and {Datasets} in {Latin} and {Ancient} {Greek}},
shorttitle = {{SEFLAG}},
url = {https://aclanthology.org/2024.nlp4dh-1.24},
abstract = {Literary scholars of Latin and Ancient Greek increasingly use natural language processing for their work, but many models and datasets are hard to use due to a lack of sustainable research data management. This paper introduces the Systematic Evaluation Framework for natural language processing models and datasets in Latin and Ancient Greek (SEFLAG), which consistently assesses language resources using common criteria, such as specific evaluation metrics, metadata and risk analysis. The framework, a work in progress in its initial phase, currently covers lemmatization and named entity recognition for both languages, with plans for adding dependency parsing and other tasks. For increased transparency and sustainability, a thorough documentation is included as well as an integration into the HuggingFace ecosystem. The combination of these efforts is designed to support researchers in their search for suitable models.},
urldate = {2024-11-12},
booktitle = {Proceedings of the 4th {International} {Conference} on {Natural} {Language} {Processing} for {Digital} {Humanities}},
publisher = {Association for Computational Linguistics},
author = {Schulz, Konstantin and Deichsler, Florian},
editor = {Hämäläinen, Mika and Öhman, Emily and Miyagawa, So and Alnajjar, Khalid and Bizzoni, Yuri},
month = nov,
year = {2024},
pages = {247--258},
}
Literary scholars of Latin and Ancient Greek increasingly use natural language processing for their work, but many models and datasets are hard to use due to a lack of sustainable research data management. This paper introduces the Systematic Evaluation Framework for natural language processing models and datasets in Latin and Ancient Greek (SEFLAG), which consistently assesses language resources using common criteria, such as specific evaluation metrics, metadata and risk analysis. The framework, a work in progress in its initial phase, currently covers lemmatization and named entity recognition for both languages, with plans for adding dependency parsing and other tasks. For increased transparency and sustainability, a thorough documentation is included as well as an integration into the HuggingFace ecosystem. The combination of these efforts is designed to support researchers in their search for suitable models.
SEFLAG. Systematic Evaluation Framework for NLP Models and Datasets in Latin and Ancient Greek.
Schulz, K.
October 2024.
Paper
doi
link
bibtex
abstract
@misc{schulz_seflag_2024-1,
title = {{SEFLAG}. {Systematic} {Evaluation} {Framework} for {NLP} {Models} and {Datasets} in {Latin} and {Ancient} {Greek}},
url = {https://zenodo.org/records/14012948},
abstract = {Das SEFLAG-Framework, präsentiert von Konstantin Schulz und Florian Deichsler (Humboldt-Universität zu Berlin), stellt ein systematisches Evaluationsframework für NLP-Modelle und -Datensätze für Latein und Altgriechisch vor. Die Hauptziele sind die Bewertung und Dokumentation bestehender NLP-Ressourcen, die Auswahl passender Modelle für Forschungsvorhaben sowie die Förderung der Interoperabilität durch standardisierte Annotationsrichtlinien. Diese Initiative reagiert auf den steigenden Einsatz von NLP in der Literaturwissenschaft historischer Sprachen und die damit verbundenen Herausforderungen, wie die Diversität an Modellen, die fehlende zentrale Verwaltung von Ressourcen und die Notwendigkeit einer systematischen Evaluation.
SEFLAG konzentriert sich zunächst auf Lemmatisierung und Named Entity Recognition (NER) und plant zukünftig die Erweiterung um weitere NLP-Tasks. Die Ergebnisse werden auf Plattformen wie Hugging Face veröffentlicht und zielen darauf ab, der Forschungsgemeinschaft Zeit und Ressourcen zu sparen. Durch Dokumentation und Benchmarking wird eine nachhaltige Infrastruktur geschaffen, die Forschenden in den Bereichen Philologie, Geschichte und Archäologie zugutekommt und Innovationen im Bereich der historischen NLP-Methoden fördert.},
language = {deu},
urldate = {2024-10-31},
author = {Schulz, Konstantin},
month = oct,
year = {2024},
doi = {10.5281/zenodo.14012948},
keywords = {Artificial intelligence, Computer and information sciences, Languages and literature, Linguistics, Natural language processing},
}
Das SEFLAG-Framework, präsentiert von Konstantin Schulz und Florian Deichsler (Humboldt-Universität zu Berlin), stellt ein systematisches Evaluationsframework für NLP-Modelle und -Datensätze für Latein und Altgriechisch vor. Die Hauptziele sind die Bewertung und Dokumentation bestehender NLP-Ressourcen, die Auswahl passender Modelle für Forschungsvorhaben sowie die Förderung der Interoperabilität durch standardisierte Annotationsrichtlinien. Diese Initiative reagiert auf den steigenden Einsatz von NLP in der Literaturwissenschaft historischer Sprachen und die damit verbundenen Herausforderungen, wie die Diversität an Modellen, die fehlende zentrale Verwaltung von Ressourcen und die Notwendigkeit einer systematischen Evaluation. SEFLAG konzentriert sich zunächst auf Lemmatisierung und Named Entity Recognition (NER) und plant zukünftig die Erweiterung um weitere NLP-Tasks. Die Ergebnisse werden auf Plattformen wie Hugging Face veröffentlicht und zielen darauf ab, der Forschungsgemeinschaft Zeit und Ressourcen zu sparen. Durch Dokumentation und Benchmarking wird eine nachhaltige Infrastruktur geschaffen, die Forschenden in den Bereichen Philologie, Geschichte und Archäologie zugutekommt und Innovationen im Bereich der historischen NLP-Methoden fördert.
Fach- und fallspezifische KI-Bildung in den Geisteswissenschaften.
Beyer, A.; and Schulz, K.
September 2024.
Paper
doi
link
bibtex
abstract
@misc{beyer_fach-_2024,
title = {Fach- und fallspezifische {KI}-{Bildung} in den {Geisteswissenschaften}},
url = {https://zenodo.org/records/13757021},
abstract = {Die Präsentation „Fach- und fallspezifische KI-Bildung in den Geisteswissenschaften“ beleuchtet die Bedeutung einer gezielten KI-Ausbildung für die Geisteswissenschaften. Im Zentrum steht die Notwendigkeit, KI-Kompetenzen zu entwickeln, um den Herausforderungen der digitalen Transformation in Forschung und Lehre gerecht zu werden. Die Einführung stellt dar, warum KI-Bildung für eine informierte Auseinandersetzung mit gesellschaftlichen und wissenschaftlichen Fragen unerlässlich ist, etwa bei der Erkennung von Bias, der Nutzung von KI-Tools im Alltag oder der Analyse von Deepfakes.
Es wird ein mehrstufiges Konzept der KI-Bildung vorgestellt, das sich an Lernende ohne informatische Vorkenntnisse richtet und Fach- sowie Fallbeispiele aus den Geisteswissenschaften nutzt, um den praktischen Nutzen von KI-Anwendungen zu verdeutlichen. Der Schwerpunkt liegt auf der Vermittlung von AI Literacy, Data Literacy und Digital Literacy auf verschiedenen Kompetenzstufen – von Anfänger bis Experte. Dabei wird verdeutlicht, wie diese Kompetenzen gezielt für die Analyse historischer und literarischer Fragestellungen eingesetzt werden können. Abschließend wird die Rolle der KI-Bildung sowohl für Lehrende als auch für Forschende und Studierende in den Geisteswissenschaften betont.},
language = {deu},
urldate = {2024-10-31},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2024},
doi = {10.5281/zenodo.13757021},
keywords = {Artificial intelligence, Classics, Educational sciences, Languages and literature, Natural language processing},
}
Die Präsentation „Fach- und fallspezifische KI-Bildung in den Geisteswissenschaften“ beleuchtet die Bedeutung einer gezielten KI-Ausbildung für die Geisteswissenschaften. Im Zentrum steht die Notwendigkeit, KI-Kompetenzen zu entwickeln, um den Herausforderungen der digitalen Transformation in Forschung und Lehre gerecht zu werden. Die Einführung stellt dar, warum KI-Bildung für eine informierte Auseinandersetzung mit gesellschaftlichen und wissenschaftlichen Fragen unerlässlich ist, etwa bei der Erkennung von Bias, der Nutzung von KI-Tools im Alltag oder der Analyse von Deepfakes. Es wird ein mehrstufiges Konzept der KI-Bildung vorgestellt, das sich an Lernende ohne informatische Vorkenntnisse richtet und Fach- sowie Fallbeispiele aus den Geisteswissenschaften nutzt, um den praktischen Nutzen von KI-Anwendungen zu verdeutlichen. Der Schwerpunkt liegt auf der Vermittlung von AI Literacy, Data Literacy und Digital Literacy auf verschiedenen Kompetenzstufen – von Anfänger bis Experte. Dabei wird verdeutlicht, wie diese Kompetenzen gezielt für die Analyse historischer und literarischer Fragestellungen eingesetzt werden können. Abschließend wird die Rolle der KI-Bildung sowohl für Lehrende als auch für Forschende und Studierende in den Geisteswissenschaften betont.
Einführung in Natural Language Processing anhand von Plinius' Brief 1,8.
Schulz, K.
May 2024.
Paper
doi
link
bibtex
abstract
1 download
@misc{schulz_einfuhrung_2024,
title = {Einführung in {Natural} {Language} {Processing} anhand von {Plinius}' {Brief} 1,8},
url = {https://zenodo.org/records/13907150},
abstract = {Die Präsentation behandelt die methodische Analyse von Plinius' Briefen, insbesondere die Herausforderungen der Selbstdarstellung in epist. 1,8. Verschiedene linguistische und computerlinguistische Verfahren werden eingesetzt, um den Text digital zu untersuchen. Zunächst wird die Lemmatisierung eingeführt, die die Reduzierung flektierter Formen auf ihre Grundform beschreibt. Dadurch wird eine bessere Durchsuchbarkeit und Vergleichbarkeit von Texten ermöglicht. Darauf folgt das Part-of-Speech-Tagging, bei dem Wortarten im Text annotiert werden. Probleme wie die Mehrdeutigkeit und Schwierigkeiten in den Trainingsdaten des Algorithmus werden hervorgehoben. Zudem wird eine Sentimentanalyse durchgeführt, die emotionale Bewertungen und Meinungen im Text identifiziert. Ferner kommen Word Embeddings zum Einsatz, um semantische Beziehungen zwischen Wörtern darzustellen. Abschließend wird die Syntax des Plinius-Briefs mittels Treebanking, also der systematischen Erfassung syntaktischer Abhängigkeiten zwischen Wörtern in einem Satz, analysiert. Der Vortrag zeigt, wie digitale Werkzeuge klassisch-philologische Fragestellungen unterstützen und neue Erkenntnisse über Plinius' Werk ermöglichen, insbesondere in Bezug auf die Darstellung von Ruhm, Bescheidenheit und Selbstreflexion.},
language = {deu},
urldate = {2024-10-09},
author = {Schulz, Konstantin},
month = may,
year = {2024},
doi = {10.5281/zenodo.13907150},
keywords = {Classics, Computational Linguistics, Languages and literature, Latin, Natural Language Processing},
}
Die Präsentation behandelt die methodische Analyse von Plinius' Briefen, insbesondere die Herausforderungen der Selbstdarstellung in epist. 1,8. Verschiedene linguistische und computerlinguistische Verfahren werden eingesetzt, um den Text digital zu untersuchen. Zunächst wird die Lemmatisierung eingeführt, die die Reduzierung flektierter Formen auf ihre Grundform beschreibt. Dadurch wird eine bessere Durchsuchbarkeit und Vergleichbarkeit von Texten ermöglicht. Darauf folgt das Part-of-Speech-Tagging, bei dem Wortarten im Text annotiert werden. Probleme wie die Mehrdeutigkeit und Schwierigkeiten in den Trainingsdaten des Algorithmus werden hervorgehoben. Zudem wird eine Sentimentanalyse durchgeführt, die emotionale Bewertungen und Meinungen im Text identifiziert. Ferner kommen Word Embeddings zum Einsatz, um semantische Beziehungen zwischen Wörtern darzustellen. Abschließend wird die Syntax des Plinius-Briefs mittels Treebanking, also der systematischen Erfassung syntaktischer Abhängigkeiten zwischen Wörtern in einem Satz, analysiert. Der Vortrag zeigt, wie digitale Werkzeuge klassisch-philologische Fragestellungen unterstützen und neue Erkenntnisse über Plinius' Werk ermöglichen, insbesondere in Bezug auf die Darstellung von Ruhm, Bescheidenheit und Selbstreflexion.
Automatisierte Kategorisierung mittellateinischer Bittbriefe an den Papst.
Faltin, N.; and Schulz, K.
July 2024.
Paper
doi
link
bibtex
abstract
1 download
@misc{faltin_automatisierte_2024,
title = {Automatisierte {Kategorisierung} mittellateinischer {Bittbriefe} an den {Papst}},
url = {https://zenodo.org/records/13628818},
abstract = {Die Präsentation ist im Rahmen der 27. Aquilonia an der Christian-Albrechts-Universität zu Kiel entstanden.},
urldate = {2024-09-04},
author = {Faltin, Nico and Schulz, Konstantin},
month = jul,
year = {2024},
doi = {10.5281/zenodo.13628818},
}
Die Präsentation ist im Rahmen der 27. Aquilonia an der Christian-Albrechts-Universität zu Kiel entstanden.
Daidalos-Projekt - Entwicklung einer Infrastruktur zum Einsatz von Natural Language Processing für Forschende der Klassischen Philologie.
Beyer, A.; and Schulz, K.
. July 2024.
Publisher: Zenodo
Paper
doi
link
bibtex
abstract
@article{beyer_daidalos-projekt_2024,
title = {Daidalos-{Projekt} - {Entwicklung} einer {Infrastruktur} zum {Einsatz} von {Natural} {Language} {Processing} für {Forschende} der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/12635794},
doi = {10.5281/zenodo.12635794},
abstract = {Project proposal approved by the German Research Council as part of their Funding Programme "e-Research Technologies" : https://www.dfg.de/en/research-funding/funding-opportunities/programmes/infrastructure/lis/funding-opportunities/e-research-technologies},
language = {deu},
urldate = {2024-07-03},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jul,
year = {2024},
note = {Publisher: Zenodo},
keywords = {Artificial intelligence, Classics, Computer and information sciences, Linguistics, Natural language processing},
}
Project proposal approved by the German Research Council as part of their Funding Programme "e-Research Technologies" : https://www.dfg.de/en/research-funding/funding-opportunities/programmes/infrastructure/lis/funding-opportunities/e-research-technologies
NLP-Methoden in der Klassischen Philologie: Word Embeddings.
Beyer, A.; and Schulz, K.
June 2024.
Paper
doi
link
bibtex
abstract
@misc{beyer_nlp-methoden_2024,
title = {{NLP}-{Methoden} in der {Klassischen} {Philologie}: {Word} {Embeddings}},
shorttitle = {{NLP}-{Methoden} in der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/11582358},
abstract = {Folien zu einem Vortrag},
language = {deu},
urldate = {2024-06-12},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jun,
year = {2024},
doi = {10.5281/zenodo.11582358},
keywords = {Artificial intelligence, Classics, Computer and information sciences, Languages and literature, Linguistics, Representation Learning, Word Embeddings},
}
Folien zu einem Vortrag
Künstliche Intelligenz in der Sprachverarbeitung.
Schulz, K.
May 2024.
Paper
doi
link
bibtex
abstract
@misc{schulz_kunstliche_2024,
title = {Künstliche {Intelligenz} in der {Sprachverarbeitung}},
url = {https://zenodo.org/records/11190250},
abstract = {Folien zu einem Vortrag},
language = {deu},
urldate = {2024-05-14},
author = {Schulz, Konstantin},
month = may,
year = {2024},
doi = {10.5281/zenodo.11190250},
keywords = {Computer and information sciences, Languages and literature, Linguistics},
}
Folien zu einem Vortrag
Reflexion mit und über KI im AU.
Beyer, A.; and Schulz, K.
April 2024.
Paper
doi
link
bibtex
abstract
4 downloads
@misc{beyer_reflexion_2024,
title = {Reflexion mit und über {KI} im {AU}},
url = {https://zenodo.org/records/10909593},
abstract = {Folien zum Arbeitskreis beim Bundeskongress des Deutschen Altphilologenverbandes 2024 in Wuppertal},
language = {deu},
urldate = {2024-04-02},
author = {Beyer, Andrea and Schulz, Konstantin},
month = apr,
year = {2024},
doi = {10.5281/zenodo.10909593},
keywords = {AI Literacy, Artificial intelligence, Classics, Second Language Acquisition},
}
Folien zum Arbeitskreis beim Bundeskongress des Deutschen Altphilologenverbandes 2024 in Wuppertal
Generative KI und ihre Bedeutung für Bewertungskontexte.
Beyer, A.; and Schulz, K.
January 2024.
Paper
doi
link
bibtex
abstract
4 downloads
@misc{beyer_generative_2024,
title = {Generative {KI} und ihre {Bedeutung} für {Bewertungskontexte}},
url = {https://zenodo.org/records/10569149},
abstract = {Präsentation zu einer Fortbildungsveranstaltung zum Thema generative KI und Leistungsmessung an einem Gymnasium in NRW, 29.1.2024.},
language = {deu},
urldate = {2024-03-18},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2024},
doi = {10.5281/zenodo.10569149},
keywords = {AI, AI Literacy, KI Ethik, KI und Prüfungen, KI-Bildung, generative KI},
}
Präsentation zu einer Fortbildungsveranstaltung zum Thema generative KI und Leistungsmessung an einem Gymnasium in NRW, 29.1.2024.
NLP-Infrastruktur für die Klassische Philologie.
Beyer, A.; and Schulz, K.
January 2024.
Paper
doi
link
bibtex
abstract
2 downloads
@misc{beyer_nlp-infrastruktur_2024,
title = {{NLP}-{Infrastruktur} für die {Klassische} {Philologie}},
url = {https://zenodo.org/records/10474686},
abstract = {Folien zum Vortrag im Kolloquium "Phänomenologie der Digital Humanities" des Lehrstuhls für Digital Humanities an der Freien Universität Berlin: https://wikis.fu-berlin.de/display/phaenodh},
language = {deu},
urldate = {2024-03-18},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2024},
doi = {10.5281/zenodo.10474686},
keywords = {Classics, computational literary studies, natural language processing, research infrastructure},
}
Folien zum Vortrag im Kolloquium "Phänomenologie der Digital Humanities" des Lehrstuhls für Digital Humanities an der Freien Universität Berlin: https://wikis.fu-berlin.de/display/phaenodh
Digitale Methoden in der Klassischen Philologie.
Beyer, A.; and Schulz, K.
January 2024.
Paper
doi
link
bibtex
abstract
1 download
@misc{beyer_digitale_2024,
title = {Digitale {Methoden} in der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/10529746},
abstract = {Folien zum Vortrag als Gastbeitrag in der Vorlesung »Grundfragen der lateinischen Literatur« an der Katholischen Universität Eichstätt-Ingolstadt},
language = {deu},
urldate = {2024-03-18},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2024},
doi = {10.5281/zenodo.10529746},
keywords = {Classics, computational literary studies, digital humanities, natural language processing},
}
Folien zum Vortrag als Gastbeitrag in der Vorlesung »Grundfragen der lateinischen Literatur« an der Katholischen Universität Eichstätt-Ingolstadt