Sprach- und literaturwissenschaftliche Fakultät
-
Korpuslinguistik und Morphologie
Konstantin Schulzhttps://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/mitarbeiter-innen/konstantin-schulzhttps://www.linguistik.hu-berlin.de/@@site-logo/og_logo.png
Institut für deutsche Sprache und Linguistik Sprach- und literaturwissenschaftliche Fakultät Humboldt-Universität zu Berlin Unter den Linden 6 10099 Berlin
Sitz: Raum 3.408 - Dorotheenstraße 24, 10117 Berlin - Mitte
Foto: Konstantin Schulz
Projekte
Daidalos (2023-2026)
Daidalos-Projekt: NLP in der Klassischen Philologie
Daidalos wird von der DFG für 3 Jahre gefördert, um eine Forschungsinfrastruktur aufzubauen, die einen niedrigschwelligen Einstieg in digitale Forschungsmethoden der Klassischen Philologie ermöglichen soll. Ziel ist es, dass alle, die an lateinischen oder griechischen Texten digitalgestützt forschen wollen, diese Forschung an ihrem eigenen Korpus mithilfe der Software durchführen können. Besonderes Augenmerk der Infrastruktur liegt zusätzlich auf der Vermittlung dieser Methoden, so dass User sich softwaregestützt selbst darin fortbilden können.
CALLIDUS (2017-2020)
Computer-Aided Language Learning: Lexikonerwerb im Lateinunterricht durch korpusgestützte Methoden
CALLIDUS bringt drei Kompetenzbereiche - den Computer- und Medienservice, die Fachdidaktik Latein und die Korpuslinguistik - zusammen, um verschiedenen Forschungsfragen bzgl. eines korpusbasierten Wortschatzerwerbs im Fremdsprachenunterricht nachzugehen.
Werdegang
Konstantin Schulz studierte Latein, Geschichte und Altgriechisch in Potsdam und Berlin (bis 2016). Er promoviert an der Humboldt-Universität zu Berlin zur automatischen Erkennung von semantischen Relationen in lateinischer Literatur. Seine wissenschaftliche Tätigkeit umfasst darüber hinaus die Arbeit in den DFG-Projekten CALLIDUS (korpusbasierte lateinische Wortschatzarbeit, 2017-2020) und Daidalos (NLP-Infrastruktur für altsprachliche Forschung, ab 2023). Hinzu kommt die Arbeit an verschiedenen Projekten zu Künstlicher Intelligenz an der TU Berlin (2021) und dem Deutschen Forschungszentrum für Künstliche Intelligenz (2021-2023).
This is a preview! To use this list on your own web site
or create a new web site from it,
create a free account. The file will be added
and you will be able to edit it in the File Manager.
We will show you instructions once you've created your account.
To the site owner:
Action required! Mendeley is changing its
API. In order to keep using Mendeley with BibBase past April
14th, you need to:
renew the authorization for BibBase on Mendeley, and
update the BibBase URL
in your page the same way you did when you initially set up
this page.
@misc{beyer_llm_2025,
title = {{LLM} \& {NLP} in der {Klassischen} {Philologie}: {Digitale} {Literaturwissenschaft} für alle?},
shorttitle = {{LLM} \& {NLP} in der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/14679224},
abstract = {Die Präsentation "LLM \& NLP in der Klassischen Philologie: Digitale Literaturwissenschaft für alle?" beleuchtet den Einsatz von Natural Language Processing (NLP) und Large Language Models (LLMs) in der Analyse antiker Texte, mit besonderem Fokus auf Sallusts Monographien Bellum Catilinae und Bellum Iugurthinum. Im Zentrum steht die Frage nach den emotionalen Nuancen der Protagonisten Catilina und Iugurtha, die durch Sentiment-Analysen untersucht werden.
Durch die Kombination moderner NLP-Methoden und spezialisierter LLMs wie GPT-4 und Gemini-1.5-Pro wird eine Polaritätsbewertung der Texte vorgenommen. Neben der Vorstellung lexikonbasierter Ansätze und Limitierungen wird die Entwicklung spezifischer Prompting-Strategien für LLMs diskutiert. Methodische Herausforderungen wie geringe Sentiment-Quote und Unterschiede in der Modellarchitektur werden thematisiert, ebenso wie Chancen durch Multimodalität und datenbasierte Erweiterungen.
Die Ergebnisse liefern Einblicke in die emotionale Charakterisierung und eröffnen neue Perspektiven für die digitale Literaturwissenschaft. Abschließend wird die Zukunft digitaler Methoden in den Geisteswissenschaften erörtert, einschließlich der Bedeutung interdisziplinärer Zusammenarbeit und der Nutzung von Retrieval-Augmented Generation (RAG) sowie Low-Rank Adaptation (LoRA) für historische Sprachen.},
language = {deu},
urldate = {2025-01-22},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2025},
doi = {10.5281/zenodo.14679224},
keywords = {Artificial Intelligence, Artificial intelligence, Classics, Languages and literature, Latin, Literature, Literature studies, Literature study, Natural Language Processing, Natural language processing},
}
Die Präsentation "LLM & NLP in der Klassischen Philologie: Digitale Literaturwissenschaft für alle?" beleuchtet den Einsatz von Natural Language Processing (NLP) und Large Language Models (LLMs) in der Analyse antiker Texte, mit besonderem Fokus auf Sallusts Monographien Bellum Catilinae und Bellum Iugurthinum. Im Zentrum steht die Frage nach den emotionalen Nuancen der Protagonisten Catilina und Iugurtha, die durch Sentiment-Analysen untersucht werden. Durch die Kombination moderner NLP-Methoden und spezialisierter LLMs wie GPT-4 und Gemini-1.5-Pro wird eine Polaritätsbewertung der Texte vorgenommen. Neben der Vorstellung lexikonbasierter Ansätze und Limitierungen wird die Entwicklung spezifischer Prompting-Strategien für LLMs diskutiert. Methodische Herausforderungen wie geringe Sentiment-Quote und Unterschiede in der Modellarchitektur werden thematisiert, ebenso wie Chancen durch Multimodalität und datenbasierte Erweiterungen. Die Ergebnisse liefern Einblicke in die emotionale Charakterisierung und eröffnen neue Perspektiven für die digitale Literaturwissenschaft. Abschließend wird die Zukunft digitaler Methoden in den Geisteswissenschaften erörtert, einschließlich der Bedeutung interdisziplinärer Zusammenarbeit und der Nutzung von Retrieval-Augmented Generation (RAG) sowie Low-Rank Adaptation (LoRA) für historische Sprachen.
@misc{schulz_responsible_2025,
title = {Responsible {AI} \& {Dokumentation}},
url = {https://zenodo.org/records/14716501},
abstract = {Diese Präsentation widmet sich der verantwortungsvollen Entwicklung und Dokumentation von KI-Systemen. Sie bietet einen Überblick über zentrale ethische Herausforderungen und deren Bedeutung in der Praxis. Unter Berücksichtigung aktueller Forschungsarbeiten werden Schlüsselthemen wie Werteorientierung bei Datensätzen, Bias-Erkennung sowie die Integration ethischer Normen im Entwicklungsprozess beleuchtet. Ergänzt wird dies durch Ansätze wie das "Red Teaming" von Sprachmodellen, um potenzielle Schwachstellen offenzulegen.
Ein weiterer Fokus liegt auf den Anforderungen an die Dokumentation von KI-Systemen gemäß EU AI Act, einschließlich Aspekten wie Transparenz, menschlicher Aufsicht, Cybersicherheit und Risikoanalyse. Die Präsentation veranschaulicht auch die Initiativen der Humboldt-Universität zu Berlin, darunter Leitlinien zur Nutzung generativer KI in Forschung und Lehre sowie deren Einbettung in eine breite Governance-Strategie.
Abschließend werden praktische Instrumente wie Model Cards und Data Statements vorgestellt, die die strukturierte Dokumentation von KI-Systemen fördern. Diese Ansätze bieten eine Grundlage für ethisch und technisch fundierte KI-Lösungen und unterstützen die Schaffung eines öffentlichen Transparenzstandards, wie er in Städten wie Helsinki und Amsterdam umgesetzt wird.},
language = {deu},
urldate = {2025-01-22},
author = {Schulz, Konstantin},
month = jan,
year = {2025},
doi = {10.5281/zenodo.14716501},
keywords = {Artificial Intelligence, Artificial intelligence, Natural Language Processing, Natural language processing},
}
Diese Präsentation widmet sich der verantwortungsvollen Entwicklung und Dokumentation von KI-Systemen. Sie bietet einen Überblick über zentrale ethische Herausforderungen und deren Bedeutung in der Praxis. Unter Berücksichtigung aktueller Forschungsarbeiten werden Schlüsselthemen wie Werteorientierung bei Datensätzen, Bias-Erkennung sowie die Integration ethischer Normen im Entwicklungsprozess beleuchtet. Ergänzt wird dies durch Ansätze wie das "Red Teaming" von Sprachmodellen, um potenzielle Schwachstellen offenzulegen. Ein weiterer Fokus liegt auf den Anforderungen an die Dokumentation von KI-Systemen gemäß EU AI Act, einschließlich Aspekten wie Transparenz, menschlicher Aufsicht, Cybersicherheit und Risikoanalyse. Die Präsentation veranschaulicht auch die Initiativen der Humboldt-Universität zu Berlin, darunter Leitlinien zur Nutzung generativer KI in Forschung und Lehre sowie deren Einbettung in eine breite Governance-Strategie. Abschließend werden praktische Instrumente wie Model Cards und Data Statements vorgestellt, die die strukturierte Dokumentation von KI-Systemen fördern. Diese Ansätze bieten eine Grundlage für ethisch und technisch fundierte KI-Lösungen und unterstützen die Schaffung eines öffentlichen Transparenzstandards, wie er in Städten wie Helsinki und Amsterdam umgesetzt wird.
@article{moreno-schneider_rapidly_2024,
title = {Rapidly developing {NLP} applications for content curation},
issn = {1574-0218},
url = {https://doi.org/10.1007/s10579-024-09774-4},
doi = {10.1007/s10579-024-09774-4},
abstract = {Time and again we are faced, in a number of collaborative research projects, with the challenge of interconnecting various language processing tools to implement certain industry-driven use cases focusing, for the most part, upon digital content curation processes. In this paper we first describe several of the relevant projects and their technology platforms, followed by a description of the corresponding use cases and their requirements. The content curation platform we focus upon in this article and which has been implemented as a prototype makes use of a large number of NLP services, which we also build upon for other use cases and prototypes. In addition to the implemented NLP services, the article presents a workflow manager for the flexible creation and customisation of processing workflows that make use of the above mentioned NLP services. Based on the four key principles of generality, flexibility, scalability and efficiency, we present the first version of the workflow manager by providing details on its custom definition language, explaining the communication components and the general system architecture and setup. The paper also addresses challenges in interoperability across different NLP tasks and hardware-based resource use.},
language = {en},
urldate = {2024-12-09},
journal = {Language Resources and Evaluation},
author = {Moreno-Schneider, Julian and Ostendorff, Malte and Schulz, Konstantin and Zaczynska, Karolina and Kintzel, Florian and Rehm, Georg},
month = dec,
year = {2024},
keywords = {Applications, Curation, Curation technologies, LR infrastructures and architectures, Language technology, NLP, Platform, Systems, Text analytics, Tools},
}
Time and again we are faced, in a number of collaborative research projects, with the challenge of interconnecting various language processing tools to implement certain industry-driven use cases focusing, for the most part, upon digital content curation processes. In this paper we first describe several of the relevant projects and their technology platforms, followed by a description of the corresponding use cases and their requirements. The content curation platform we focus upon in this article and which has been implemented as a prototype makes use of a large number of NLP services, which we also build upon for other use cases and prototypes. In addition to the implemented NLP services, the article presents a workflow manager for the flexible creation and customisation of processing workflows that make use of the above mentioned NLP services. Based on the four key principles of generality, flexibility, scalability and efficiency, we present the first version of the workflow manager by providing details on its custom definition language, explaining the communication components and the general system architecture and setup. The paper also addresses challenges in interoperability across different NLP tasks and hardware-based resource use.
@inproceedings{schulz_seflag_2024,
address = {Miami, USA},
title = {{SEFLAG}: {Systematic} {Evaluation} {Framework} for {NLP} {Models} and {Datasets} in {Latin} and {Ancient} {Greek}},
shorttitle = {{SEFLAG}},
url = {https://aclanthology.org/2024.nlp4dh-1.24},
abstract = {Literary scholars of Latin and Ancient Greek increasingly use natural language processing for their work, but many models and datasets are hard to use due to a lack of sustainable research data management. This paper introduces the Systematic Evaluation Framework for natural language processing models and datasets in Latin and Ancient Greek (SEFLAG), which consistently assesses language resources using common criteria, such as specific evaluation metrics, metadata and risk analysis. The framework, a work in progress in its initial phase, currently covers lemmatization and named entity recognition for both languages, with plans for adding dependency parsing and other tasks. For increased transparency and sustainability, a thorough documentation is included as well as an integration into the HuggingFace ecosystem. The combination of these efforts is designed to support researchers in their search for suitable models.},
urldate = {2024-11-12},
booktitle = {Proceedings of the 4th {International} {Conference} on {Natural} {Language} {Processing} for {Digital} {Humanities}},
publisher = {Association for Computational Linguistics},
author = {Schulz, Konstantin and Deichsler, Florian},
editor = {Hämäläinen, Mika and Öhman, Emily and Miyagawa, So and Alnajjar, Khalid and Bizzoni, Yuri},
month = nov,
year = {2024},
pages = {247--258},
}
Literary scholars of Latin and Ancient Greek increasingly use natural language processing for their work, but many models and datasets are hard to use due to a lack of sustainable research data management. This paper introduces the Systematic Evaluation Framework for natural language processing models and datasets in Latin and Ancient Greek (SEFLAG), which consistently assesses language resources using common criteria, such as specific evaluation metrics, metadata and risk analysis. The framework, a work in progress in its initial phase, currently covers lemmatization and named entity recognition for both languages, with plans for adding dependency parsing and other tasks. For increased transparency and sustainability, a thorough documentation is included as well as an integration into the HuggingFace ecosystem. The combination of these efforts is designed to support researchers in their search for suitable models.
@misc{schulz_seflag_2024-1,
title = {{SEFLAG}. {Systematic} {Evaluation} {Framework} for {NLP} {Models} and {Datasets} in {Latin} and {Ancient} {Greek}},
url = {https://zenodo.org/records/14012948},
abstract = {Das SEFLAG-Framework, präsentiert von Konstantin Schulz und Florian Deichsler (Humboldt-Universität zu Berlin), stellt ein systematisches Evaluationsframework für NLP-Modelle und -Datensätze für Latein und Altgriechisch vor. Die Hauptziele sind die Bewertung und Dokumentation bestehender NLP-Ressourcen, die Auswahl passender Modelle für Forschungsvorhaben sowie die Förderung der Interoperabilität durch standardisierte Annotationsrichtlinien. Diese Initiative reagiert auf den steigenden Einsatz von NLP in der Literaturwissenschaft historischer Sprachen und die damit verbundenen Herausforderungen, wie die Diversität an Modellen, die fehlende zentrale Verwaltung von Ressourcen und die Notwendigkeit einer systematischen Evaluation.
SEFLAG konzentriert sich zunächst auf Lemmatisierung und Named Entity Recognition (NER) und plant zukünftig die Erweiterung um weitere NLP-Tasks. Die Ergebnisse werden auf Plattformen wie Hugging Face veröffentlicht und zielen darauf ab, der Forschungsgemeinschaft Zeit und Ressourcen zu sparen. Durch Dokumentation und Benchmarking wird eine nachhaltige Infrastruktur geschaffen, die Forschenden in den Bereichen Philologie, Geschichte und Archäologie zugutekommt und Innovationen im Bereich der historischen NLP-Methoden fördert.},
language = {deu},
urldate = {2024-10-31},
author = {Schulz, Konstantin},
month = oct,
year = {2024},
doi = {10.5281/zenodo.14012948},
keywords = {Artificial intelligence, Computer and information sciences, Languages and literature, Linguistics, Natural language processing},
}
Das SEFLAG-Framework, präsentiert von Konstantin Schulz und Florian Deichsler (Humboldt-Universität zu Berlin), stellt ein systematisches Evaluationsframework für NLP-Modelle und -Datensätze für Latein und Altgriechisch vor. Die Hauptziele sind die Bewertung und Dokumentation bestehender NLP-Ressourcen, die Auswahl passender Modelle für Forschungsvorhaben sowie die Förderung der Interoperabilität durch standardisierte Annotationsrichtlinien. Diese Initiative reagiert auf den steigenden Einsatz von NLP in der Literaturwissenschaft historischer Sprachen und die damit verbundenen Herausforderungen, wie die Diversität an Modellen, die fehlende zentrale Verwaltung von Ressourcen und die Notwendigkeit einer systematischen Evaluation. SEFLAG konzentriert sich zunächst auf Lemmatisierung und Named Entity Recognition (NER) und plant zukünftig die Erweiterung um weitere NLP-Tasks. Die Ergebnisse werden auf Plattformen wie Hugging Face veröffentlicht und zielen darauf ab, der Forschungsgemeinschaft Zeit und Ressourcen zu sparen. Durch Dokumentation und Benchmarking wird eine nachhaltige Infrastruktur geschaffen, die Forschenden in den Bereichen Philologie, Geschichte und Archäologie zugutekommt und Innovationen im Bereich der historischen NLP-Methoden fördert.
@misc{beyer_fach-_2024,
title = {Fach- und fallspezifische {KI}-{Bildung} in den {Geisteswissenschaften}},
url = {https://zenodo.org/records/13757021},
abstract = {Die Präsentation „Fach- und fallspezifische KI-Bildung in den Geisteswissenschaften“ beleuchtet die Bedeutung einer gezielten KI-Ausbildung für die Geisteswissenschaften. Im Zentrum steht die Notwendigkeit, KI-Kompetenzen zu entwickeln, um den Herausforderungen der digitalen Transformation in Forschung und Lehre gerecht zu werden. Die Einführung stellt dar, warum KI-Bildung für eine informierte Auseinandersetzung mit gesellschaftlichen und wissenschaftlichen Fragen unerlässlich ist, etwa bei der Erkennung von Bias, der Nutzung von KI-Tools im Alltag oder der Analyse von Deepfakes.
Es wird ein mehrstufiges Konzept der KI-Bildung vorgestellt, das sich an Lernende ohne informatische Vorkenntnisse richtet und Fach- sowie Fallbeispiele aus den Geisteswissenschaften nutzt, um den praktischen Nutzen von KI-Anwendungen zu verdeutlichen. Der Schwerpunkt liegt auf der Vermittlung von AI Literacy, Data Literacy und Digital Literacy auf verschiedenen Kompetenzstufen – von Anfänger bis Experte. Dabei wird verdeutlicht, wie diese Kompetenzen gezielt für die Analyse historischer und literarischer Fragestellungen eingesetzt werden können. Abschließend wird die Rolle der KI-Bildung sowohl für Lehrende als auch für Forschende und Studierende in den Geisteswissenschaften betont.},
language = {deu},
urldate = {2024-10-31},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2024},
doi = {10.5281/zenodo.13757021},
keywords = {Artificial intelligence, Classics, Educational sciences, Languages and literature, Natural language processing},
}
Die Präsentation „Fach- und fallspezifische KI-Bildung in den Geisteswissenschaften“ beleuchtet die Bedeutung einer gezielten KI-Ausbildung für die Geisteswissenschaften. Im Zentrum steht die Notwendigkeit, KI-Kompetenzen zu entwickeln, um den Herausforderungen der digitalen Transformation in Forschung und Lehre gerecht zu werden. Die Einführung stellt dar, warum KI-Bildung für eine informierte Auseinandersetzung mit gesellschaftlichen und wissenschaftlichen Fragen unerlässlich ist, etwa bei der Erkennung von Bias, der Nutzung von KI-Tools im Alltag oder der Analyse von Deepfakes. Es wird ein mehrstufiges Konzept der KI-Bildung vorgestellt, das sich an Lernende ohne informatische Vorkenntnisse richtet und Fach- sowie Fallbeispiele aus den Geisteswissenschaften nutzt, um den praktischen Nutzen von KI-Anwendungen zu verdeutlichen. Der Schwerpunkt liegt auf der Vermittlung von AI Literacy, Data Literacy und Digital Literacy auf verschiedenen Kompetenzstufen – von Anfänger bis Experte. Dabei wird verdeutlicht, wie diese Kompetenzen gezielt für die Analyse historischer und literarischer Fragestellungen eingesetzt werden können. Abschließend wird die Rolle der KI-Bildung sowohl für Lehrende als auch für Forschende und Studierende in den Geisteswissenschaften betont.
@article{kuehnast_development_2024,
title = {Development of basic reading skills in {Latin}: a corpus-based tool for computer-assisted fluency training},
volume = {11},
issn = {null},
shorttitle = {Development of basic reading skills in {Latin}},
url = {https://doi.org/10.1080/2331186X.2024.2416819},
doi = {10.1080/2331186X.2024.2416819},
abstract = {The present paper evaluates the processes of reading acquisition in Latin from the component-skills approach and discusses how advances in reading in modern foreign languages could be adapted to the specific needs of Latin as a historical language. Compared to the holistic and socially embedded approaches to modern foreign language acquisition, the grammar-translation method traditionally used in schools shows considerable weaknesses in the development of basic reading skills in Latin. Therefore, we address the possible advantages of corpus-based teaching strategies and present Machina Callida, a psycholinguistically informed e-tutor suitable for supporting Latin vocabulary acquisition and reading comprehension at beginner and intermediate levels. Using digital corpora of original Latin texts, the application semi-automatically generates contextualized vocabulary exercises tailored to the needs of different groups of learners. Through its integration with the research data repository Zenodo, Machina Callida supports online collaboration in the creation and distribution of open educational resources through crowdsourcing.},
number = {1},
urldate = {2024-10-22},
journal = {Cogent Education},
author = {Kuehnast, Milena and Schulz, Konstantin and Lüdeling, Anke},
month = dec,
year = {2024},
note = {Publisher: Cogent OA
\_eprint: https://doi.org/10.1080/2331186X.2024.2416819},
keywords = {CALL, Classical Language \& Literature, Classroom Practice, Databases, Language \& Linguistics, Language Teaching \& Learning, Latin, Open \& Distance Education and eLearning, Teaching \& Learning - Education, corpus resources, reading comprehension, vocabulary acquisition},
pages = {2416819},
}
The present paper evaluates the processes of reading acquisition in Latin from the component-skills approach and discusses how advances in reading in modern foreign languages could be adapted to the specific needs of Latin as a historical language. Compared to the holistic and socially embedded approaches to modern foreign language acquisition, the grammar-translation method traditionally used in schools shows considerable weaknesses in the development of basic reading skills in Latin. Therefore, we address the possible advantages of corpus-based teaching strategies and present Machina Callida, a psycholinguistically informed e-tutor suitable for supporting Latin vocabulary acquisition and reading comprehension at beginner and intermediate levels. Using digital corpora of original Latin texts, the application semi-automatically generates contextualized vocabulary exercises tailored to the needs of different groups of learners. Through its integration with the research data repository Zenodo, Machina Callida supports online collaboration in the creation and distribution of open educational resources through crowdsourcing.
@misc{schulz_einfuhrung_2024,
title = {Einführung in {Natural} {Language} {Processing} anhand von {Plinius}' {Brief} 1,8},
url = {https://zenodo.org/records/13907150},
abstract = {Die Präsentation behandelt die methodische Analyse von Plinius' Briefen, insbesondere die Herausforderungen der Selbstdarstellung in epist. 1,8. Verschiedene linguistische und computerlinguistische Verfahren werden eingesetzt, um den Text digital zu untersuchen. Zunächst wird die Lemmatisierung eingeführt, die die Reduzierung flektierter Formen auf ihre Grundform beschreibt. Dadurch wird eine bessere Durchsuchbarkeit und Vergleichbarkeit von Texten ermöglicht. Darauf folgt das Part-of-Speech-Tagging, bei dem Wortarten im Text annotiert werden. Probleme wie die Mehrdeutigkeit und Schwierigkeiten in den Trainingsdaten des Algorithmus werden hervorgehoben. Zudem wird eine Sentimentanalyse durchgeführt, die emotionale Bewertungen und Meinungen im Text identifiziert. Ferner kommen Word Embeddings zum Einsatz, um semantische Beziehungen zwischen Wörtern darzustellen. Abschließend wird die Syntax des Plinius-Briefs mittels Treebanking, also der systematischen Erfassung syntaktischer Abhängigkeiten zwischen Wörtern in einem Satz, analysiert. Der Vortrag zeigt, wie digitale Werkzeuge klassisch-philologische Fragestellungen unterstützen und neue Erkenntnisse über Plinius' Werk ermöglichen, insbesondere in Bezug auf die Darstellung von Ruhm, Bescheidenheit und Selbstreflexion.},
language = {deu},
urldate = {2024-10-09},
author = {Schulz, Konstantin},
month = may,
year = {2024},
doi = {10.5281/zenodo.13907150},
keywords = {Classics, Computational Linguistics, Languages and literature, Latin, Natural Language Processing},
}
Die Präsentation behandelt die methodische Analyse von Plinius' Briefen, insbesondere die Herausforderungen der Selbstdarstellung in epist. 1,8. Verschiedene linguistische und computerlinguistische Verfahren werden eingesetzt, um den Text digital zu untersuchen. Zunächst wird die Lemmatisierung eingeführt, die die Reduzierung flektierter Formen auf ihre Grundform beschreibt. Dadurch wird eine bessere Durchsuchbarkeit und Vergleichbarkeit von Texten ermöglicht. Darauf folgt das Part-of-Speech-Tagging, bei dem Wortarten im Text annotiert werden. Probleme wie die Mehrdeutigkeit und Schwierigkeiten in den Trainingsdaten des Algorithmus werden hervorgehoben. Zudem wird eine Sentimentanalyse durchgeführt, die emotionale Bewertungen und Meinungen im Text identifiziert. Ferner kommen Word Embeddings zum Einsatz, um semantische Beziehungen zwischen Wörtern darzustellen. Abschließend wird die Syntax des Plinius-Briefs mittels Treebanking, also der systematischen Erfassung syntaktischer Abhängigkeiten zwischen Wörtern in einem Satz, analysiert. Der Vortrag zeigt, wie digitale Werkzeuge klassisch-philologische Fragestellungen unterstützen und neue Erkenntnisse über Plinius' Werk ermöglichen, insbesondere in Bezug auf die Darstellung von Ruhm, Bescheidenheit und Selbstreflexion.
@misc{faltin_automatisierte_2024,
title = {Automatisierte {Kategorisierung} mittellateinischer {Bittbriefe} an den {Papst}},
url = {https://zenodo.org/records/13628818},
abstract = {Die Präsentation ist im Rahmen der 27. Aquilonia an der Christian-Albrechts-Universität zu Kiel entstanden.},
urldate = {2024-09-04},
author = {Faltin, Nico and Schulz, Konstantin},
month = jul,
year = {2024},
doi = {10.5281/zenodo.13628818},
}
Die Präsentation ist im Rahmen der 27. Aquilonia an der Christian-Albrechts-Universität zu Kiel entstanden.
@article{beyer_daidalos-projekt_2024,
title = {Daidalos-{Projekt} - {Entwicklung} einer {Infrastruktur} zum {Einsatz} von {Natural} {Language} {Processing} für {Forschende} der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/12635794},
doi = {10.5281/zenodo.12635794},
abstract = {Project proposal approved by the German Research Council as part of their Funding Programme "e-Research Technologies" : https://www.dfg.de/en/research-funding/funding-opportunities/programmes/infrastructure/lis/funding-opportunities/e-research-technologies},
language = {deu},
urldate = {2024-07-03},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jul,
year = {2024},
note = {Publisher: Zenodo},
keywords = {Artificial intelligence, Classics, Computer and information sciences, Linguistics, Natural language processing},
}
Project proposal approved by the German Research Council as part of their Funding Programme "e-Research Technologies" : https://www.dfg.de/en/research-funding/funding-opportunities/programmes/infrastructure/lis/funding-opportunities/e-research-technologies
@misc{beyer_nlp-methoden_2024,
title = {{NLP}-{Methoden} in der {Klassischen} {Philologie}: {Word} {Embeddings}},
shorttitle = {{NLP}-{Methoden} in der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/11582358},
abstract = {Folien zu einem Vortrag},
language = {deu},
urldate = {2024-06-12},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jun,
year = {2024},
doi = {10.5281/zenodo.11582358},
keywords = {Artificial intelligence, Classics, Computer and information sciences, Languages and literature, Linguistics, Representation Learning, Word Embeddings},
}
@misc{schulz_kunstliche_2024,
title = {Künstliche {Intelligenz} in der {Sprachverarbeitung}},
url = {https://zenodo.org/records/11190250},
abstract = {Folien zu einem Vortrag},
language = {deu},
urldate = {2024-05-14},
author = {Schulz, Konstantin},
month = may,
year = {2024},
doi = {10.5281/zenodo.11190250},
keywords = {Computer and information sciences, Languages and literature, Linguistics},
}
@misc{beyer_reflexion_2024,
title = {Reflexion mit und über {KI} im {AU}},
url = {https://zenodo.org/records/10909593},
abstract = {Folien zum Arbeitskreis beim Bundeskongress des Deutschen Altphilologenverbandes 2024 in Wuppertal},
language = {deu},
urldate = {2024-04-02},
author = {Beyer, Andrea and Schulz, Konstantin},
month = apr,
year = {2024},
doi = {10.5281/zenodo.10909593},
keywords = {AI Literacy, Artificial intelligence, Classics, Second Language Acquisition},
}
Folien zum Arbeitskreis beim Bundeskongress des Deutschen Altphilologenverbandes 2024 in Wuppertal
@misc{beyer_generative_2024,
title = {Generative {KI} und ihre {Bedeutung} für {Bewertungskontexte}},
url = {https://zenodo.org/records/10569149},
abstract = {Präsentation zu einer Fortbildungsveranstaltung zum Thema generative KI und Leistungsmessung an einem Gymnasium in NRW, 29.1.2024.},
language = {deu},
urldate = {2024-03-18},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2024},
doi = {10.5281/zenodo.10569149},
keywords = {AI, AI Literacy, KI Ethik, KI und Prüfungen, KI-Bildung, generative KI},
}
Präsentation zu einer Fortbildungsveranstaltung zum Thema generative KI und Leistungsmessung an einem Gymnasium in NRW, 29.1.2024.
@misc{beyer_nlp-infrastruktur_2024,
title = {{NLP}-{Infrastruktur} für die {Klassische} {Philologie}},
url = {https://zenodo.org/records/10474686},
abstract = {Folien zum Vortrag im Kolloquium "Phänomenologie der Digital Humanities" des Lehrstuhls für Digital Humanities an der Freien Universität Berlin: https://wikis.fu-berlin.de/display/phaenodh},
language = {deu},
urldate = {2024-03-18},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2024},
doi = {10.5281/zenodo.10474686},
keywords = {Classics, computational literary studies, natural language processing, research infrastructure},
}
Folien zum Vortrag im Kolloquium "Phänomenologie der Digital Humanities" des Lehrstuhls für Digital Humanities an der Freien Universität Berlin: https://wikis.fu-berlin.de/display/phaenodh
@misc{beyer_digitale_2024,
title = {Digitale {Methoden} in der {Klassischen} {Philologie}},
url = {https://zenodo.org/records/10529746},
abstract = {Folien zum Vortrag als Gastbeitrag in der Vorlesung »Grundfragen der lateinischen Literatur« an der Katholischen Universität Eichstätt-Ingolstadt},
language = {deu},
urldate = {2024-03-18},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jan,
year = {2024},
doi = {10.5281/zenodo.10529746},
keywords = {Classics, computational literary studies, digital humanities, natural language processing},
}
Folien zum Vortrag als Gastbeitrag in der Vorlesung »Grundfragen der lateinischen Literatur« an der Katholischen Universität Eichstätt-Ingolstadt
@inproceedings{beyer_daidalos_2023,
address = {Berlin},
title = {{DAIdalos}: {Forschen} und {Lernen} zugleich?},
isbn = {978-3-88579-731-9},
shorttitle = {{DAIdalos}},
url = {https://dl.gi.de/handle/20.500.12116/43162},
doi = {10.18420/inf2023_42},
abstract = {Die Daidalos-Infrastruktur soll es Forschenden der Klassischen Philologie und verwandter Disziplinen ermöglichen, verschiedene Methoden des Natural Language Processing an selbst zusammengestellten Forschungskorpora anzuwenden. Dabei ist Daidalos als interaktive Lern- und Forschungsinfrastruktur konzipiert, die den Ausbau wesentlicher Teilfähigkeiten von Data Literacy, z. B. die Zusammenstellung und Analyse von Korpora oder den Umgang mit Annotationen, TEI-XML und graphischen Auswertungen, unterstützt.},
language = {de},
urldate = {2023-12-14},
publisher = {Gesellschaft für Informatik e.V.},
author = {Beyer, Andrea and Schulz, Konstantin},
year = {2023},
pages = {391--393},
}
Die Daidalos-Infrastruktur soll es Forschenden der Klassischen Philologie und verwandter Disziplinen ermöglichen, verschiedene Methoden des Natural Language Processing an selbst zusammengestellten Forschungskorpora anzuwenden. Dabei ist Daidalos als interaktive Lern- und Forschungsinfrastruktur konzipiert, die den Ausbau wesentlicher Teilfähigkeiten von Data Literacy, z. B. die Zusammenstellung und Analyse von Korpora oder den Umgang mit Annotationen, TEI-XML und graphischen Auswertungen, unterstützt.
@misc{beyer_data_2023,
address = {Tübingen, Germany},
title = {Data {Literacy} für die {Klassische} {Philologie}: {dAIdalos} – eine interaktive {Infrastruktur} als {Lernangebot}},
shorttitle = {Data {Literacy} für die {Klassische} {Philologie}},
url = {https://zenodo.org/record/8420565},
doi = {10.5281/zenodo.8420565},
abstract = {Abstract für das gleichnamige Poster bei der Konferenz "FORGE 2023 - Forschungsdaten in den Geisteswissenschaften: Anything Goes?! Forschungsdaten in den Geisteswissenschaften - kritisch betrachtet": https://forge23.uni-tuebingen.de/},
language = {deu},
urldate = {2023-10-09},
publisher = {Zenodo},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2023},
keywords = {Digital Classics, data literacy, open educational resources, research infrastructure},
}
Abstract für das gleichnamige Poster bei der Konferenz "FORGE 2023 - Forschungsdaten in den Geisteswissenschaften: Anything Goes?! Forschungsdaten in den Geisteswissenschaften - kritisch betrachtet": https://forge23.uni-tuebingen.de/
@misc{beyer_data_2023-1,
title = {Data {Literacy} für die {Klassische} {Philologie} - {dAIdalos} - eine interkative {Infrastruktur} als {Lernangebot}},
url = {https://zenodo.org/record/8392485},
abstract = {Das Poster informiert über das DFG-geförderte explorative Entwicklungsvorhaben Daidalos, das es Forschenden der Klassischen Philologie und verwandter Disziplinen ermöglichen soll, verschiedene Methoden des Natural Language Processing (NLP) an selbst zusammengestellten Forschungskorpora anzuwenden. Dabei ist Daidalos als interaktive Forschungsinfrastruktur konzipiert, die zugleich den Ausbau wesentlicher Teilfähigkeiten von Data Literacy, z. B. die Zusammenstellung und Analyse von Korpora oder den Umgang mit Annotationen, TEI-XML und graphischen Auswertungen, unterstützt. Hierzu sind vor allem forschungsorientierte, didaktische Lernbausteine und deren Implementierung in die Infrastruktur angedacht, um ein fach- und forschungsbezogenes Lernen zu ermöglichen.},
urldate = {2023-10-09},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2023},
doi = {10.5281/zenodo.8392485},
keywords = {Data Literacy, FORGE2023, JupyterLab, KI-Didaktik, NLP},
}
Das Poster informiert über das DFG-geförderte explorative Entwicklungsvorhaben Daidalos, das es Forschenden der Klassischen Philologie und verwandter Disziplinen ermöglichen soll, verschiedene Methoden des Natural Language Processing (NLP) an selbst zusammengestellten Forschungskorpora anzuwenden. Dabei ist Daidalos als interaktive Forschungsinfrastruktur konzipiert, die zugleich den Ausbau wesentlicher Teilfähigkeiten von Data Literacy, z. B. die Zusammenstellung und Analyse von Korpora oder den Umgang mit Annotationen, TEI-XML und graphischen Auswertungen, unterstützt. Hierzu sind vor allem forschungsorientierte, didaktische Lernbausteine und deren Implementierung in die Infrastruktur angedacht, um ein fach- und forschungsbezogenes Lernen zu ermöglichen.
@misc{beyer_chatbot_2023,
address = {Berlin, Germany},
title = {@chatbot: warum kannst du latein et quo vadis?},
shorttitle = {@chatbot},
url = {https://zenodo.org/record/8412875},
abstract = {Folien zum Vortrag bei der Fortbildung "@chatbot: warum kannst du latein et quo vadis?": http://www.davbb.de/veranstaltungen-fortbildungen/248-chatbot},
language = {deu},
urldate = {2023-10-06},
author = {Beyer, Andrea and Schulz, Konstantin},
month = oct,
year = {2023},
doi = {10.5281/zenodo.8412875},
keywords = {Latin language, artificial intelligence, artificial intelligence literacy, language learning},
}
Folien zum Vortrag bei der Fortbildung "@chatbot: warum kannst du latein et quo vadis?": http://www.davbb.de/veranstaltungen-fortbildungen/248-chatbot
@misc{beyer_daidalos_2023-1,
title = {Daidalos: {Forschen} und {Lernen} zugleich? {Data} {Literacy} als {Lernaufgabe} für die {Klassisch}-philologische {Forschung}},
shorttitle = {Daidalos},
url = {https://zenodo.org/record/8388900},
abstract = {Poster zur Präsentation des Daidalos-Projekts beim "Workshop KI-Bildung. Ein Workshop zu Aus- und Weiterbildung über Künstliche Intelligenz im Rahmen der GI-Tagung INFORMATIK 2023" an der HTW Berlin},
language = {deu},
urldate = {2023-09-29},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2023},
doi = {10.5281/zenodo.8388900},
keywords = {Digital Classics, data literacy, natural language processing, research infrastructure},
}
Poster zur Präsentation des Daidalos-Projekts beim "Workshop KI-Bildung. Ein Workshop zu Aus- und Weiterbildung über Künstliche Intelligenz im Rahmen der GI-Tagung INFORMATIK 2023" an der HTW Berlin
@misc{beyer_ki-bildung_2023,
address = {Bielefeld, Germany},
title = {{KI}-{Bildung}: {Was}, warum und wie?},
shorttitle = {{KI}-{Bildung}},
url = {https://zenodo.org/record/8381513},
abstract = {Folien zum Vortrag bei der Fachtagung "Zwischen Wachstafel und ChatGPT – KI im Lateinunterricht": https://www.uni-bielefeld.de/fakultaeten/linguistik-literaturwissenschaft/studium-lehre/faecher/latein/projekte/fachtagung-ki-im-lateinun/index.xml},
language = {deu},
urldate = {2023-09-29},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2023},
doi = {10.5281/zenodo.8381513},
keywords = {Latin language, artificial intelligence, artificial intelligence literacy, language learning},
}
Folien zum Vortrag bei der Fachtagung "Zwischen Wachstafel und ChatGPT – KI im Lateinunterricht": https://www.uni-bielefeld.de/fakultaeten/linguistik-literaturwissenschaft/studium-lehre/faecher/latein/projekte/fachtagung-ki-im-lateinun/index.xml
@misc{beyer_mit_2023,
address = {Bielefeld, Germany},
title = {Mit und über {KI}-{Tools} im {Literaturunterricht} reflektieren},
url = {https://zenodo.org/record/8388817},
abstract = {Folien zum Workshop bei der Fachtagung "Zwischen Wachstafel und ChatGPT – KI im Lateinunterricht": https://www.uni-bielefeld.de/fakultaeten/linguistik-literaturwissenschaft/studium-lehre/faecher/latein/projekte/fachtagung-ki-im-lateinun/index.xml},
language = {deu},
urldate = {2023-09-29},
author = {Beyer, Andrea and Schulz, Konstantin},
month = sep,
year = {2023},
doi = {10.5281/zenodo.8388817},
keywords = {Latin language, artificial intelligence, artificial intelligence literacy, language learning},
}
Folien zum Workshop bei der Fachtagung "Zwischen Wachstafel und ChatGPT – KI im Lateinunterricht": https://www.uni-bielefeld.de/fakultaeten/linguistik-literaturwissenschaft/studium-lehre/faecher/latein/projekte/fachtagung-ki-im-lateinun/index.xml
@inproceedings{anegundi_modelling_2022,
address = {Potsdam, Germany},
title = {Modelling {Cultural} and {Socio}-{Economic} {Dimensions} of {Political} {Bias} in {German} {Tweets}},
url = {https://aclanthology.org/2022.konvens-1.5},
urldate = {2024-07-01},
booktitle = {Proceedings of the 18th {Conference} on {Natural} {Language} {Processing} ({KONVENS} 2022)},
publisher = {KONVENS 2022 Organizers},
author = {Anegundi, Aishwarya and Schulz, Konstantin and Rauh, Christian and Rehm, Georg},
editor = {Schaefer, Robin and Bai, Xiaoyu and Stede, Manfred and Zesch, Torsten},
year = {2022},
pages = {29--40},
}
@article{beyer_new_2022,
title = {New {Insights} and methods of vocabulary acquisition in {Latin} classes},
volume = {35},
copyright = {Copyright (c) 2022},
issn = {2256-5469},
url = {https://revistas.unal.edu.co/index.php/formayfuncion/article/view/91129},
doi = {10.15446/fyf.v35n2.91129},
abstract = {Learning a historical language is different from learning a modern language in view of the emphasis on the work on texts instead of everyday communication. Therefore, not only the expectations and motivation differ, but also the teaching methodology. Whereas learners of modern languages focus on language production, learners of Latin read or translate their texts. Because of the overall low frequency of occurrence of a Latin word or a phrase in this kind of learning environment, most students are often unfamiliar with a given word and therefore finally unable to translate the texts. To tackle this underlying problem of Latin classes, an interdisciplinary research project conducted different studies using a data-driven learning (DDL) approach. So far, the findings are very multifaceted and sometimes even surprising: the majority of students fail to lemmatize words correctly even though they have learned Latin for four years or more.},
language = {en},
number = {2},
urldate = {2022-07-04},
journal = {Forma y Función},
author = {Beyer, Andrea and Schulz, Konstantin},
month = jul,
year = {2022},
note = {Number: 2},
keywords = {historical language},
}
Learning a historical language is different from learning a modern language in view of the emphasis on the work on texts instead of everyday communication. Therefore, not only the expectations and motivation differ, but also the teaching methodology. Whereas learners of modern languages focus on language production, learners of Latin read or translate their texts. Because of the overall low frequency of occurrence of a Latin word or a phrase in this kind of learning environment, most students are often unfamiliar with a given word and therefore finally unable to translate the texts. To tackle this underlying problem of Latin classes, an interdisciplinary research project conducted different studies using a data-driven learning (DDL) approach. So far, the findings are very multifaceted and sometimes even surprising: the majority of students fail to lemmatize words correctly even though they have learned Latin for four years or more.
@misc{schulz_user_2022,
address = {Virtual},
title = {User {Experience} {Design} for {Automatic} {Credibility} {Assessment} of {News} {Content} {About} {COVID}-19},
url = {https://zenodo.org/record/6786009},
abstract = {Slides for a talk at the HCII 2022 conference},
language = {eng},
urldate = {2022-07-01},
author = {Schulz, Konstantin and Rauenbusch, Jens and Fillies, Jan and Rutenburg, Lisa and Karvelas, Dimitrios and Rehm, Georg},
month = jul,
year = {2022},
doi = {10.5281/zenodo.6786009},
keywords = {covid-19, credibility, news, usability},
}
@misc{schulz_modelling_2022,
address = {Virtual},
title = {Modelling {Cultural} and {Socio}-{Economic} {Dimensions} of {Political} {Bias} in {German} {Tweets}},
url = {https://zenodo.org/record/6683650},
abstract = {Slides for a talk in a workshop on Models of Political Bias that was held as part of the research project Panqura},
language = {eng},
urldate = {2022-06-22},
author = {Schulz, Konstantin},
month = jun,
year = {2022},
doi = {10.5281/zenodo.6683650},
keywords = {Twitter, artificial intelligence, bias, politics, text classification},
}
Slides for a talk in a workshop on Models of Political Bias that was held as part of the research project Panqura
@misc{schulz_political_2022,
title = {Political {Bias} {Classifier} ({Cultural} and {Socioeconomic})},
url = {https://live.european-language-grid.eu/catalogue/tool-service/18689},
abstract = {{\textless}p{\textgreater}This service classifies the political bias of a German text in 2 dimensions: cultural and socioeconomic. It uses two {\textless}a href="https://huggingface.co/bert-base-german-cased" target="\_blank"{\textgreater}German BERT models{\textless}/a{\textgreater} as binary text classifiers, each of them being responsible for one of the two dimensions. The results are given as probabilities: Culturally speaking, how conservative is the text? Socioeconomically speaking, how liberal is the text?{\textless}/p{\textgreater}{\textless}p{\textgreater}The extremes of the respective dimensions are modeled according to German political parties, namely “Die Grünen” (culturally progressive) vs. “AfD” (culturally conservative) and “Die Linke” (socioeconomically socialist) vs. “FDP” (socioeconomically liberal).{\textless}/p{\textgreater}},
urldate = {2022-06-22},
publisher = {Deutsches Forschungszentrum für Künstliche Intelligenz},
author = {Schulz, Konstantin},
month = may,
year = {2022},
}
\textlessp\textgreaterThis service classifies the political bias of a German text in 2 dimensions: cultural and socioeconomic. It uses two \textlessa href="https://huggingface.co/bert-base-german-cased" target="_blank"\textgreaterGerman BERT models\textless/a\textgreater as binary text classifiers, each of them being responsible for one of the two dimensions. The results are given as probabilities: Culturally speaking, how conservative is the text? Socioeconomically speaking, how liberal is the text?\textless/p\textgreater\textlessp\textgreaterThe extremes of the respective dimensions are modeled according to German political parties, namely “Die Grünen” (culturally progressive) vs. “AfD” (culturally conservative) and “Die Linke” (socioeconomically socialist) vs. “FDP” (socioeconomically liberal).\textless/p\textgreater
@misc{schulz_covid_2022,
title = {{COVID} {Fake} {News} {Detector}},
url = {https://live.european-language-grid.eu/catalogue/tool-service/18690},
abstract = {{\textless}p{\textgreater}This service detects Fake News in a German text about COVID-19. It uses a {\textless}a href="https://huggingface.co/bert-base-german-cased" target="\_blank"{\textgreater}German BERT model{\textless}/a{\textgreater} as binary text classifier. The result is given as a probability between 0 and 1: How likely is the information in that text to be reliable, without any Fake News?{\textless}/p{\textgreater}{\textless}p{\textgreater}The model was trained on the {\textless}a href="https://github.com/justusmattern/fang-covid" target="\_blank"{\textgreater}FANG-COVID dataset{\textless}/a{\textgreater}. The dataset contains 41,242 documents labeled as either real (68\%) or fake (32\%). The ground truth was derived from automatic annotation based on the publication platform of a text (newspapers, websites, etc.). The publication platforms were associated with global labels (real or fake) as introduced by independent organizations such as Correctiv or NewsGuard.{\textless}/p{\textgreater}},
urldate = {2022-06-22},
publisher = {Deutsches Forschungszentrum für Künstliche Intelligenz},
author = {Schulz, Konstantin},
month = may,
year = {2022},
}
\textlessp\textgreaterThis service detects Fake News in a German text about COVID-19. It uses a \textlessa href="https://huggingface.co/bert-base-german-cased" target="_blank"\textgreaterGerman BERT model\textless/a\textgreater as binary text classifier. The result is given as a probability between 0 and 1: How likely is the information in that text to be reliable, without any Fake News?\textless/p\textgreater\textlessp\textgreaterThe model was trained on the \textlessa href="https://github.com/justusmattern/fang-covid" target="_blank"\textgreaterFANG-COVID dataset\textless/a\textgreater. The dataset contains 41,242 documents labeled as either real (68%) or fake (32%). The ground truth was derived from automatic annotation based on the publication platform of a text (newspapers, websites, etc.). The publication platforms were associated with global labels (real or fake) as introduced by independent organizations such as Correctiv or NewsGuard.\textless/p\textgreater
@misc{schulz_machina_2022,
address = {Virtual},
title = {Machina {Callida}. {Corpus}-based {Latin} {Language} {Acquisition} and {Research}},
url = {https://zenodo.org/record/6598973},
abstract = {Slides for a talk at Sunoikis Digital Classics Summer 2022: https://github.com/SunoikisisDC/SunoikisisDC-2021-2022/wiki/SunoikisisDC-Summer-2022-Session-6},
language = {eng},
urldate = {2022-05-31},
author = {Schulz, Konstantin and Beyer, Andrea},
month = jun,
year = {2022},
doi = {10.5281/zenodo.6598973},
keywords = {Latin language, computer-assisted language learning, language learning, vocabulary acquisition},
}
Slides for a talk at Sunoikis Digital Classics Summer 2022: https://github.com/SunoikisisDC/SunoikisisDC-2021-2022/wiki/SunoikisisDC-Summer-2022-Session-6
@misc{schulz_evaluation_2022,
address = {Virtual},
title = {Evaluation with the {Language} {Model} {Evaluation} {Harness} for {German}},
url = {https://zenodo.org/record/6556525},
abstract = {Slides for a talk at the OpenGPT-X "Workshop on the State of the Art for Training Large Language Models"},
language = {eng},
urldate = {2022-05-18},
author = {Schulz, Konstantin},
month = may,
year = {2022},
doi = {10.5281/zenodo.6556525},
keywords = {German, Language Model Evaluation Harness, evaluation, language models},
}
Slides for a talk at the OpenGPT-X "Workshop on the State of the Art for Training Large Language Models"
@article{schulz_user_2022-1,
title = {User {Experience} {Design} for {Automatic} {Credibility} {Assessment} of {News} {Content} {About} {COVID}-19},
url = {http://arxiv.org/abs/2204.13943},
abstract = {The increasingly rapid spread of information about COVID-19 on the web calls for automatic measures of quality assurance. In that context, we check the credibility of news content using selected linguistic features. We present two empirical studies to evaluate the usability of graphical interfaces that offer such credibility assessment. In a moderated qualitative interview with six participants, we identify rating scale, sub-criteria and algorithm authorship as important predictors of the usability. A subsequent quantitative online survey with 50 participants reveals a conflict between transparency and conciseness in the interface design, as well as a perceived hierarchy of metadata: the authorship of a news text is more important than the authorship of the credibility algorithm used to assess the content quality. Finally, we make suggestions for future research, such as proactively documenting credibility-related metadata for Natural Language Processing and Language Technology services and establishing an explicit hierarchical taxonomy of usability predictors for automatic credibility assessment.},
urldate = {2022-05-02},
journal = {arXiv:2204.13943 [cs]},
author = {Schulz, Konstantin and Rauenbusch, Jens and Fillies, Jan and Rutenburg, Lisa and Karvelas, Dimitrios and Rehm, Georg},
month = apr,
year = {2022},
note = {arXiv: 2204.13943},
keywords = {68-04, Computer Science - Artificial Intelligence, Computer Science - Computation and Language, Computer Science - Human-Computer Interaction, H.5.2, I.2.7},
}
The increasingly rapid spread of information about COVID-19 on the web calls for automatic measures of quality assurance. In that context, we check the credibility of news content using selected linguistic features. We present two empirical studies to evaluate the usability of graphical interfaces that offer such credibility assessment. In a moderated qualitative interview with six participants, we identify rating scale, sub-criteria and algorithm authorship as important predictors of the usability. A subsequent quantitative online survey with 50 participants reveals a conflict between transparency and conciseness in the interface design, as well as a perceived hierarchy of metadata: the authorship of a news text is more important than the authorship of the credibility algorithm used to assess the content quality. Finally, we make suggestions for future research, such as proactively documenting credibility-related metadata for Natural Language Processing and Language Technology services and establishing an explicit hierarchical taxonomy of usability predictors for automatic credibility assessment.
@misc{losch_informatische_2022,
address = {Virtual},
title = {Informatische {Literalität} in der altsprachlichen {Lehrkräftebildung} am {Beispiel} maschineller {Sprachverarbeitung}},
url = {https://zenodo.org/record/6472226},
abstract = {Folien für einen Arbeitskreis beim Bundeskongress 2022 des Deutschen Altphilologenverbandes},
urldate = {2022-04-20},
author = {Losch, Daniel and Schulz, Konstantin},
month = apr,
year = {2022},
doi = {10.5281/zenodo.6472226},
keywords = {Alte Sprachen, Bildung, Informatik, Lehre, Natural Language Processing},
}
Folien für einen Arbeitskreis beim Bundeskongress 2022 des Deutschen Altphilologenverbandes
@misc{pankovska_suspicious_2022,
address = {Stavanger, Norway},
title = {Suspicious {Sentence} {Detection} and {Claim} {Verification} in the {COVID}-19 {Domain}},
url = {https://zenodo.org/record/6433402},
abstract = {Slides for presenting the paper "Suspicious Sentence Detection and Claim Verification in the COVID-19 Domain" at the ROMCIR 2022 workshop},
language = {eng},
urldate = {2022-04-20},
author = {Pankovska, Elitsa and Schulz, Konstantin and Rehm, Georg},
month = apr,
year = {2022},
doi = {10.5281/zenodo.6433402},
keywords = {claim extraction, covid-19, fact checking, fake news detection},
}
Slides for presenting the paper "Suspicious Sentence Detection and Claim Verification in the COVID-19 Domain" at the ROMCIR 2022 workshop
Suspicious Sentence Detection and Claim Verification in the COVID-19 Domain.
Pankovska, E.; Schulz, K.; and Rehm, G.
In Proceedings of the workshop Reducing Online Misinformation through Credible Information Retrieval (ROMCIR 2022), Stavanger, 2022. CEUR-WS
Forthcoming linkbibtex
@inproceedings{pankovska_suspicious_2022-1,
address = {Stavanger},
title = {Suspicious {Sentence} {Detection} and {Claim} {Verification} in the {COVID}-19 {Domain}},
language = {en},
booktitle = {Proceedings of the workshop {Reducing} {Online} {Misinformation} through {Credible} {Information} {Retrieval} ({ROMCIR} 2022)},
publisher = {CEUR-WS},
author = {Pankovska, Elitsa and Schulz, Konstantin and Rehm, Georg},
year = {2022},
note = {Forthcoming},
}
User Experience Design for Automatic Credibility Assessment of News Content About COVID-19.
Schulz, K.; Rauenbusch, J.; Fillies, J.; Rutenburg, L.; Karvelas, D.; and Rehm, G.
In HCI International 2022 - Late Breaking Papers, Virtual, 2022. Springer
Forthcoming linkbibtex
@inproceedings{schulz_user_2022-2,
address = {Virtual},
title = {User {Experience} {Design} for {Automatic} {Credibility} {Assessment} of {News} {Content} {About} {COVID}-19},
language = {en},
booktitle = {{HCI} {International} 2022 - {Late} {Breaking} {Papers}},
publisher = {Springer},
author = {Schulz, Konstantin and Rauenbusch, Jens and Fillies, Jan and Rutenburg, Lisa and Karvelas, Dimitrios and Rehm, Georg},
year = {2022},
note = {Forthcoming},
}
@misc{schulz_modellierung_2022,
address = {Virtual},
title = {Modellierung von {Glaubwürdigkeit}},
url = {https://zenodo.org/record/6241041},
abstract = {Folien für einen Vortrag im Rahmen des Workshops zur Modellierung von Glaubwürdigkeit, der im Rahmen des Forschungsprojekts Panqura stattfand},
language = {deu},
urldate = {2022-02-23},
author = {Schulz, Konstantin},
month = feb,
year = {2022},
doi = {10.5281/zenodo.6241041},
keywords = {artificial intelligence, credibility, disinformation, fake news, misinformation},
}
Folien für einen Vortrag im Rahmen des Workshops zur Modellierung von Glaubwürdigkeit, der im Rahmen des Forschungsprojekts Panqura stattfand
@misc{guescini_laudatio_2021,
title = {Laudatio {Repository} - {Long}-term {Access} and {Usage} of {Deeply} {Annotated} {Information} {Docker} {Images}},
url = {https://zenodo.org/records/5101524},
abstract = {This is the dockerized images of the Laudatio Repository software described by the following: The management and archiving of digital research data is an overlapping field for linguistics, library and information science (LIS) and computer science: The departments of Corpus Linguistics and the Computer and Media Service (CMS) at Humboldt-Universität zu Berlin and The National Institute for Research in Computer Science and Control (INRIA France) are project partners cooperating with the Berlin School of Library and Information Science (BSLIS). LAUDATIO has developed an open access research data repository for historical corpora. For the access and (re-)use of historical corpora, the LAUDATIO repository uses a flexible and appropriate documentation schema with a subset of TEI customized by TEI ODD. The extensive metadata schema contains information about the preparation and checking methods applied to the data, tools, formats and annotation guidelines used in the project, as well as bibliographic metadata, and information on the research context (e.g. the research project). To provide complex and comprehensive search in the annotation data, the search and visualization tool ANNIS is integrated in the LAUDATIO-Repository.},
urldate = {2024-01-18},
publisher = {Zenodo},
author = {Guescini, Rolf and Schulz, Konstantin and Odebrecht, Carolin},
month = jul,
year = {2021},
doi = {10.5281/zenodo.5101524},
keywords = {docker images, historical linguistics, laudatio repository, research data management, research data repository},
}
This is the dockerized images of the Laudatio Repository software described by the following: The management and archiving of digital research data is an overlapping field for linguistics, library and information science (LIS) and computer science: The departments of Corpus Linguistics and the Computer and Media Service (CMS) at Humboldt-Universität zu Berlin and The National Institute for Research in Computer Science and Control (INRIA France) are project partners cooperating with the Berlin School of Library and Information Science (BSLIS). LAUDATIO has developed an open access research data repository for historical corpora. For the access and (re-)use of historical corpora, the LAUDATIO repository uses a flexible and appropriate documentation schema with a subset of TEI customized by TEI ODD. The extensive metadata schema contains information about the preparation and checking methods applied to the data, tools, formats and annotation guidelines used in the project, as well as bibliographic metadata, and information on the research context (e.g. the research project). To provide complex and comprehensive search in the annotation data, the search and visualization tool ANNIS is integrated in the LAUDATIO-Repository.
@inproceedings{schulz_natural_2021,
title = {Natural {Language} {Processing} for {Teaching} {Ancient} {Languages}},
copyright = {https://creativecommons.org/licenses/by-sa/4.0/},
isbn = {978-3-928794-61-9},
url = {https://macau.uni-kiel.de/receive/macau_mods_00001368},
doi = {10.38072/2703-0784/p19},
abstract = {Konstantin Schulz shows various applications of natural language processing (NLP) to the field of Classics, especially to Latin texts. He addresses different levels of linguistic analysis while also highlighting educational benefits and important theoretical pitfalls, especially in vocabulary learning. NLP can solve some problems reasonably well, like tailoring exercises to the learners' current state of knowledge. However, some tasks still prove to be too difficult for machines at the moment, e.g. reliable and highly accurate parsing of syntax for historical languages.},
language = {en},
urldate = {2021-08-17},
booktitle = {Teaching {Classics} in the {Digital} {Age}},
author = {Schulz, Konstantin},
month = aug,
year = {2021},
keywords = {scientific},
pages = {37--48},
}
Konstantin Schulz shows various applications of natural language processing (NLP) to the field of Classics, especially to Latin texts. He addresses different levels of linguistic analysis while also highlighting educational benefits and important theoretical pitfalls, especially in vocabulary learning. NLP can solve some problems reasonably well, like tailoring exercises to the learners' current state of knowledge. However, some tasks still prove to be too difficult for machines at the moment, e.g. reliable and highly accurate parsing of syntax for historical languages.
@misc{schulz_political_2021,
title = {Political {Bias} {Classifier}},
url = {https://live.european-language-grid.eu/catalogue/tool-service/9278?auth=true},
abstract = {The model classifies the political bias of a German text into 5 classes: far-left, center-left, center, center-right, far-right. It uses a TF-IDF vectorizer to preprocess documents. Then, a Random Forest classifier is applied on the resulting vectors to determine the final class.},
urldate = {2021-12-09},
publisher = {Deutsches Forschungszentrum für Künstliche Intelligenz},
author = {Schulz, Konstantin},
month = nov,
year = {2021},
}
The model classifies the political bias of a German text into 5 classes: far-left, center-left, center, center-right, far-right. It uses a TF-IDF vectorizer to preprocess documents. Then, a Random Forest classifier is applied on the resulting vectors to determine the final class.
@incollection{beyer_informatische_2021,
address = {Virtual},
title = {Informatische {Literalität} im {Lehramtsstudium} der {Lateinischen} {Philologie}},
isbn = {978-3-88579-707-4},
url = {http://dl.gi.de/handle/20.500.12116/36985},
abstract = {Die Informatikdidaktik begleitet für die fachwissenschaftliche Lehrkräftebildung in der Lateinischen Philologie Lehr-Lern-Konzepte, die die informatische Literalität [vgl. Puhlmann2003] zukünftiger Lateinlehrkräfte fördern. Informatische Bildung in der Lateinischen Philologie wird über sog. Lernbausteine umgesetzt; es stehen 30 Stunden studentischen Workloads zur Verfügung, die auf verschiedene, in ihrer Zusammensetzung frei wählbare Lernbausteine verteilt werden. Diese greifen unterschiedliche fachspezifische Themen auf und verknüpfen fachimmanentes und überfachliches, informatisches Denken und Handeln miteinander. Aus Gründen eines transparenten Zugangs wird jeder Baustein vergleichbar strukturiert und evaluiert. Es ergeben sich Lernbausteine für Edition, Literaturwissenschaft, Syntax, Morphologie, Daten und ihre Repräsentation, Übersetzung sowie »Semantik – Kontext«. Der Bezug zu Informatiksystemen ist dabei ein möglicher Zugang. Darüber hinaus ist das Heranziehen von Problemlösestrategien und Werkzeugen im Sinne von »Denkzeugen« z.B. im fachspezifischen Handlungsfeld des Übersetzens ein vielversprechender Ansatz. Im moderierten Austausch liegt der Fokus auf der informatikdidaktischen Gestaltung der Lernbausteine und damit auf dem Lernen und Lehren informatischer Konzepte in einem fachfremden Kontext. Die Teilnehmenden erörtern, welche strukturellen, didaktischen und methodischen Elemente dieser Konzepte sinnvoll auf andere Fächer transferiert werden können. Als Diskussionsgrundlage dient ein exemplarischer Lernbaustein, z.B. zum »Satzanalysemodell« (»Wie erschließe ich mir einen lateinischen Satz für die Übersetzung unter Anwendung informatischer Methoden?«), der bereits pilotiert wurde, sodass auch über erste Erfahrungen berichtet werden kann.},
language = {de},
urldate = {2021-11-25},
booktitle = {{INFOS} 2021 - 19. {GI}-{Fachtagung} {Informatik} und {Schule}},
publisher = {Gesellschaft für Informatik, Bonn},
author = {Beyer, Andrea and Freund, Stefan and Losch, Daniel and Schulz, Konstantin},
year = {2021},
doi = {10.18420/infos2021_a271},
note = {Accepted: 2021-08-24T08:27:43Z
ISSN: 1617-5468},
pages = {351--351},
}
Die Informatikdidaktik begleitet für die fachwissenschaftliche Lehrkräftebildung in der Lateinischen Philologie Lehr-Lern-Konzepte, die die informatische Literalität [vgl. Puhlmann2003] zukünftiger Lateinlehrkräfte fördern. Informatische Bildung in der Lateinischen Philologie wird über sog. Lernbausteine umgesetzt; es stehen 30 Stunden studentischen Workloads zur Verfügung, die auf verschiedene, in ihrer Zusammensetzung frei wählbare Lernbausteine verteilt werden. Diese greifen unterschiedliche fachspezifische Themen auf und verknüpfen fachimmanentes und überfachliches, informatisches Denken und Handeln miteinander. Aus Gründen eines transparenten Zugangs wird jeder Baustein vergleichbar strukturiert und evaluiert. Es ergeben sich Lernbausteine für Edition, Literaturwissenschaft, Syntax, Morphologie, Daten und ihre Repräsentation, Übersetzung sowie »Semantik – Kontext«. Der Bezug zu Informatiksystemen ist dabei ein möglicher Zugang. Darüber hinaus ist das Heranziehen von Problemlösestrategien und Werkzeugen im Sinne von »Denkzeugen« z.B. im fachspezifischen Handlungsfeld des Übersetzens ein vielversprechender Ansatz. Im moderierten Austausch liegt der Fokus auf der informatikdidaktischen Gestaltung der Lernbausteine und damit auf dem Lernen und Lehren informatischer Konzepte in einem fachfremden Kontext. Die Teilnehmenden erörtern, welche strukturellen, didaktischen und methodischen Elemente dieser Konzepte sinnvoll auf andere Fächer transferiert werden können. Als Diskussionsgrundlage dient ein exemplarischer Lernbaustein, z.B. zum »Satzanalysemodell« (»Wie erschließe ich mir einen lateinischen Satz für die Übersetzung unter Anwendung informatischer Methoden?«), der bereits pilotiert wurde, sodass auch über erste Erfahrungen berichtet werden kann.
@misc{schulz_user_2021,
address = {Virtual},
title = {User {Experience} {Design} and {Credibility}},
url = {https://zenodo.org/record/5707196},
abstract = {Slides for presenting the PANQURA research project at the virtual project expo for META-FORUM 2021, an initiative by the European Language Grid},
language = {eng},
urldate = {2021-11-17},
author = {Schulz, Konstantin},
month = nov,
year = {2021},
doi = {10.5281/zenodo.5707196},
keywords = {artificial intelligence, credibility, empirical study, human-computer interaction, user experience},
}
Slides for presenting the PANQURA research project at the virtual project expo for META-FORUM 2021, an initiative by the European Language Grid
@misc{schulz_document_2021,
title = {Document {Classification} {German}},
url = {https://live.european-language-grid.eu/catalogue/tool-service/7484},
abstract = {The service classifies German texts into various topics. It was trained on book cover texts (blurbs) from the GermEval 2019 Shared Task 1 (Hierarchical Classification of Blurbs). The topic labels originate from the Random House book collection. See https://competitions.codalab.org/competitions/20139 for more information on the dataset.
Each output contains confidence levels for the various topics. Higher values correspond to higher confidence, so the topic with the highest score is the predicted choice.},
urldate = {2021-09-01},
publisher = {Deutsches Forschungszentrum für Künstliche Intelligenz},
author = {Schulz, Konstantin},
month = jul,
year = {2021},
}
The service classifies German texts into various topics. It was trained on book cover texts (blurbs) from the GermEval 2019 Shared Task 1 (Hierarchical Classification of Blurbs). The topic labels originate from the Random House book collection. See https://competitions.codalab.org/competitions/20139 for more information on the dataset. Each output contains confidence levels for the various topics. Higher values correspond to higher confidence, so the topic with the highest score is the predicted choice.
@misc{schulz_credibility_2021,
title = {Credibility {Score} {Service}},
url = {https://live.european-language-grid.eu/catalogue/tool-service/7348},
abstract = {Computes credibility scores for a given news article, especially for content related to COVID-19.},
urldate = {2021-09-01},
publisher = {Deutsches Forschungszentrum für Künstliche Intelligenz},
author = {Schulz, Konstantin},
month = jun,
year = {2021},
}
Computes credibility scores for a given news article, especially for content related to COVID-19.
@misc{schulz_summarization_2021,
title = {Summarization {German}},
url = {https://live.european-language-grid.eu/catalogue/tool-service/7326},
abstract = {Provides abstractive summaries for arbitrary German texts. The algorithm uses Open Neural Machine Translation with BERT and DistilBERT as a basis.},
urldate = {2021-09-01},
publisher = {Deutsches Forschungszentrum für Künstliche Intelligenz},
author = {Schulz, Konstantin},
month = jun,
year = {2021},
}
Provides abstractive summaries for arbitrary German texts. The algorithm uses Open Neural Machine Translation with BERT and DistilBERT as a basis.
@incollection{beyer_zusatzmaterial_2021,
address = {Berlin},
title = {Zusatzmaterial für eine kontextbasierte {Wortschatzarbeit}},
url = {https://doi.org/10.13109/9783666710650.suppl},
booktitle = {{VIVA} 1, {Lehrgang} für {Latein} ab {Klasse} 5 oder 6},
publisher = {Vandenhoeck \& Ruprecht},
author = {Beyer, Andrea and Liebsch, Ann-Catherine and Schulz, Konstantin},
year = {2021},
}
@misc{beyer_bridgeclassics_2021,
address = {online},
title = {{BridgeClassics}. {Künstliche} {Intelligenz} für die {Klassische} {Philologie}},
url = {https://zenodo.org/record/4745781#.YJkPT4MzbJw},
abstract = {Folien zu einem virtuellen Vortrag der Humboldt-Universität zu Berlin in Kooperation mit der Technischen Universität Berlin},
language = {deu},
urldate = {2021-05-10},
author = {Beyer, Andrea and Schulz, Konstantin and Cordes, Lisa},
month = may,
year = {2021},
doi = {10.5281/zenodo.4745781},
keywords = {Ancient Greek, Latin, artificial intelligence, classics, machine learning},
}
Folien zu einem virtuellen Vortrag der Humboldt-Universität zu Berlin in Kooperation mit der Technischen Universität Berlin
@article{beyer_using_2020,
title = {Using {NLP} to {Create} {Corpus}-based {Vocabulary} {Exercises} in {Latin} {Classes}},
url = {https://zenodo.org/record/6480472},
doi = {10.21125/inted.2020.0562},
abstract = {Preprint for a paper that is published in the INTED2020 Proceedings, pp. 1750-1757.},
language = {eng},
urldate = {2022-04-25},
journal = {INTED2020 Proceedings},
author = {Beyer, Andrea and Schulz, Konstantin},
month = apr,
year = {2020},
keywords = {Latin, NLP, corpus-based exercises, data-driven learning, language acquisition, technology enhanced language learning},
pages = {1750--1757},
}
Preprint for a paper that is published in the INTED2020 Proceedings, pp. 1750-1757.
@inproceedings{couto-vale_intelligenti_2020,
address = {Düsseldorf, Germany},
title = {Intelligenti {Pauca} - {Probing} a {Novel} {Alternative} to {Universal} {Dependencies} for {Under}-{Resourced} {Languages} on {Latin}},
url = {https://www.aclweb.org/anthology/2020.tlt-1.10},
doi = {10.18653/v1/2020.tlt-1.10},
urldate = {2020-10-26},
booktitle = {Proceedings of the 19th {Workshop} on {Treebanks} and {Linguistic} {Theories}},
publisher = {Association for Computational Linguistics},
author = {Couto-Vale, Daniel and Schulz, Konstantin},
year = {2020},
keywords = {scientific},
pages = {111--123},
}
@misc{schulz_learner_2020,
title = {Learner {Data} from a {Study} on {Latin} {Language} {Learning}},
url = {https://zenodo.org/record/4108359},
doi = {10.5281/zenodo.4108359},
abstract = {The dataset contains test results from a digital intervention study of the CALLIDUS Project in a high school in Berlin. 13 Students were randomly sampled in two groups and completed various linguistic tasks. The focus of the study was to find out whether learning Latin vocabulary in authentic contexts leads to higher lexical competence, compared to memorizing traditional vocabulary lists. The data is available in JSON format as provided by the H5P implementation of XAPI. File names indicate the time of test completion, in the concatenated form of "year-month-day-hour-minute-second-millisecond". This allows us to trace the development of single learners who were fast enough to perform the test twice in a row. Changelog: Version 2.0: Each exercise now has a unique ID that is consistent in the whole dataset, so evaluation/visualization can refer to specific exercises more easily. Version 3.0: A simplified Excel Spreadsheet has been added to enhance the reusability of the dataset. It contains a slightly reduced overview of the data, but the core information (user ID, task statement, correct solution, given answer, score, duration) is still present.},
language = {deu},
urldate = {2021-10-22},
publisher = {Zenodo},
author = {Schulz, Konstantin},
month = oct,
year = {2020},
keywords = {Latin, computer-assisted language learning, language learning, vocabulary learning},
}
The dataset contains test results from a digital intervention study of the CALLIDUS Project in a high school in Berlin. 13 Students were randomly sampled in two groups and completed various linguistic tasks. The focus of the study was to find out whether learning Latin vocabulary in authentic contexts leads to higher lexical competence, compared to memorizing traditional vocabulary lists. The data is available in JSON format as provided by the H5P implementation of XAPI. File names indicate the time of test completion, in the concatenated form of "year-month-day-hour-minute-second-millisecond". This allows us to trace the development of single learners who were fast enough to perform the test twice in a row. Changelog: Version 2.0: Each exercise now has a unique ID that is consistent in the whole dataset, so evaluation/visualization can refer to specific exercises more easily. Version 3.0: A simplified Excel Spreadsheet has been added to enhance the reusability of the dataset. It contains a slightly reduced overview of the data, but the core information (user ID, task statement, correct solution, given answer, score, duration) is still present.
@misc{schulz_data-driven_2020,
title = {A {Data}-{Driven} {Platform} for {Creating} {Educational} {Content} in {Language} {Learning}: {Machina} {Callida}},
shorttitle = {A {Data}-{Driven} {Platform} for {Creating} {Educational} {Content} in {Language} {Learning}},
url = {https://zenodo.org/record/4106260#.X41ud0L7RQI},
abstract = {Talk at the Scientific Workshop of "QURATOR 2020 – Conference on Digital Curation Technologies". The conference was organized by the Qurator project (https://qurator.ai/).},
language = {eng},
urldate = {2020-10-19},
author = {Schulz, Konstantin and Beyer, Andrea and Dreyer, Malte and Kipf, Stefan},
month = jan,
year = {2020},
doi = {10.5281/zenodo.4106260},
keywords = {Latin, computer-assisted language learning, data-driven language learning, language exercises, natural language processing},
}
Talk at the Scientific Workshop of "QURATOR 2020 – Conference on Digital Curation Technologies". The conference was organized by the Qurator project (https://qurator.ai/).
@misc{beyer_list_2020,
title = {List of {Links} to {Digital} {Resources} for {Latin} and {Ancient} {Greek}},
url = {https://zenodo.org/record/4066697#.X3sYIpP7RQI},
doi = {10.5281/zenodo.4066697},
abstract = {List of Links to Digital Resources for Latin and Ancient Greek The list was produced as an appendix to the German publication "Wie die Digitalisierung unseren Umgang mit den Alten Sprachen verändert hat" (How Digitization Changed the Way We Deal with Latin and Ancient Greek) in the journal "Forum Classicum", scheduled for release at the end of the year 2020. It contains references to various resources, such as text editions, databases, teaching materials, newspaper articles, tools for natural language processing and more. Most of them are available in English, some only in German. The list is sorted by the appearance of links in the article. Changelog: Version 2.0: Added headings from the paper to indicate topics for each part of the link list. English translations for the German headings are given in brackets. The list: Wie die Digitalisierung unseren Umgang mit den Alten Sprachen verändert hat / Linkliste (How Digitization Changed the Way We Deal with Latin and Ancient Greek / Link List) A. Umgang mit der Literatur und anderen Wissensbeständen (Dealing with Literature and Other Data Collections) 1. Digitale Textsammlungen sind schnell verfügbar und unterstützen Lehre und Forschung. (Digital text collections are quickly accessible and support teaching as well as research.) https://www.degruyter.com/view/db/btltll http://stephanus.tlg.uci.edu/ https://cil.bbaw.de/ https://latin.packhum.org/ http://cite-architecture.org/cts/ https://referenceworks.brillonline.com/entries/brill-s-new-pauly/ancient-authors-and-titles-of-works-Ancient\_Authors\_and\_Titles\_of\_Works http://www.perseus.tufts.edu/hopper/collection?collection=Perseus:collection:Greco-Roman https://tesserae.caset.buffalo.edu/ 2. Digitale Datenbanken ermöglichen schnelle systematische Suchanfragen in großen Text- oder Informationsbeständen, auch über disziplinäre Grenzen hinweg. (Digital databases enable quick systematic queries for large collections of texts and other information, even beyond disciplinary boundaries.) https://about.brepolis.net/lannee-philologique-aph/ https://www.gbd.digital/metaopac/start.do?View=gnomon https://referenceworks.brillonline.com/browse/brill-s-new-pauly https://www.navigium.de/ https://www.navigium.de/latein-unterrichten.html http://lehrerportal.ccbuchner.de/Textanalyse/Default.aspx https://open-educational-resources.de/ https://github.com/sommerschield/ancient-text-restoration 3. Digitale Datenbestände werden vernetzt und für neue Anwendungszwecke kombiniert. (Digital data collections can be interconnected and combined for new use cases.) https://www.w3.org/standards/semanticweb/data https://lila-erc.eu/ https://peripleo.pelagios.org/ https://medium.com/pelagios/linked-open-data-to-navigate-the-past-using-peripleo-in-class-4286b3089bf3 https://topostext.org/ 4. Die maschinelle sprachliche Vorverarbeitung antiker Texte erleichtert den Zugang für Lernende und Forschende. (Natural language processing of ancient texts facilitates access for both teachers and researchers.) http://www.lemlat3.eu/ https://d.iogen.es/ https://alpheios.net/ B. Umgang mit dem Spracherwerb (Dealing with Language Acquisition) 5. Die Digitalisierung fördert einen multimodalen und inklusiven Spracherwerb. (Digitization supports multimodal and inclusive language acquisition.) https://www.hearinglink.org/living/loops-equipment/hearing-loops/what-is-a-hearing-loop/ http://www.cross-plus-a.com/balabolka.htm https://propylaeum.de/e-learning/historische-aussprache-des-lateinischen-und-altgriechischen https://www.youtube.com/watch?v=R5vdg\_2i\_pU https://www.youtube.com/watch?v=R5vdg\_2i\_pU https://www.lesediagnostik.de/eye-tracking/ https://www.youtube.com/watch?v=8QocWsWd7fc https://www.speechtexter.com/ https://etherpad.org/ https://moodle.org 6. Der Spracherwerb kann flexibel und personalisiert gestaltet werden. (Language acquisition can be designed in a flexible and personalized manner.) C. Umgang mit der Öffentlichkeit (Dealing with the Public) https://www.che.de/third-mission/ 7. Social Media ermöglichen eine schnelle Interessens- und Wissensvernetzung innerhalb und vor allem außerhalb einer definierten Gemeinschaft. (Social Media enable us to quickly connect interests and knowledge inside and especially outside of a specific community.) https://la.wikipedia.org/wiki/Vicipaedia\_Latina http://forum.latein24.de/ https://twitter.com/RomAthen https://www.projekte.hu-berlin.de/de/callidus/blog-2017-2018 https://www.superprof.de/blog/lateinische-begriffe-im-deutschen/ https://www.facebook.com/klassphil/?\_\_tn\_\_=\%2Cd\%2CP-R\&eid=ARDXqBAnvPxAePqFMxWrKxnFG2nfqqzKDWdoHdSg1CBNwBmcZbHwF5f8IWuQZXEODH6VKzqzWvUvUzfU https://www.instagram.com/fs\_klassphil\_tuebingen/ https://hu-berlin.academia.edu/MarkusAsper https://www.researchgate.net/profile/Monica\_Berti https://www.br.de/alphalernen/faecher/latein/latein-einfach-erklaert-100.html https://www.pinterest.de/pin/5418462037462026/ https://www.youtube.com/channel/UChB8TYnAEtSIL1mY7FuBoqA https://learnattack.de/latein/saetze-uebersetzen?utm\_campaign=Learnattack\_Kanal\&utm\_source=youtube.com\&utm\_medium=social\&utm\_content=saetze-uebersetzen-latein\&kanal=youtube\#video-wie-du-einen-lateinischen-satz-\%C3\%BCbersetzt https://vimeo.com/276706092 8. Der digitale weltweite Zugang zu und Austausch von Wissen fördert das informelle Lernen und die Open-Science-Bewegung. (The worldwide digital access to and exchange of knowledge supports informal learning and the Open Science movement.) https://www.udemy.com/course/an-introduction-to-classical-latin/ https://www.coursera.org/learn/roman-architecture https://www.coursera.org/learn/plato https://www.youtube.com/channel/UCNW1n7ctSkW3cgYFCzKPK3A/videos https://scholar.google.de/ https://www.kim.uni-konstanz.de/openscience/onlinekurs-open-science-von-daten-zu-publikationen/ https://www.go-fair.org/fair-principles/ https://zenodo.org/record/3601182 https://zenodo.org/record/3816709 https://scm.cms.hu-berlin.de/callidus https://www.ianus-fdz.de/ https://opr.degruyter.com/ http://ahropenreview.com/ https://arxiv.org/help/trackback https://www.propylaeum.de/ https://journals.ub.uni-heidelberg.de/index.php/dco/index http://www.pegasus-onlinezeitschrift.de/ https://www.schule-bw.de/faecher-und-schularten/sprachen-und-literatur/latein https://www.schule-bw.de/faecher-und-schularten/sprachen-und-literatur/griechisch https://www.bmbf.de/de/citizen-science-wissenschaft-erreicht-die-mitte-der-gesellschaft-225.html https://pleiades.stoa.org/home Fazit (Conclusion) http://pom.bbaw.de/cmg/},
language = {eng},
urldate = {2020-10-05},
publisher = {Zenodo},
author = {Beyer, Andrea and Schulz, Konstantin},
month = oct,
year = {2020},
}
List of Links to Digital Resources for Latin and Ancient Greek The list was produced as an appendix to the German publication "Wie die Digitalisierung unseren Umgang mit den Alten Sprachen verändert hat" (How Digitization Changed the Way We Deal with Latin and Ancient Greek) in the journal "Forum Classicum", scheduled for release at the end of the year 2020. It contains references to various resources, such as text editions, databases, teaching materials, newspaper articles, tools for natural language processing and more. Most of them are available in English, some only in German. The list is sorted by the appearance of links in the article. Changelog: Version 2.0: Added headings from the paper to indicate topics for each part of the link list. English translations for the German headings are given in brackets. The list: Wie die Digitalisierung unseren Umgang mit den Alten Sprachen verändert hat / Linkliste (How Digitization Changed the Way We Deal with Latin and Ancient Greek / Link List) A. Umgang mit der Literatur und anderen Wissensbeständen (Dealing with Literature and Other Data Collections) 1. Digitale Textsammlungen sind schnell verfügbar und unterstützen Lehre und Forschung. (Digital text collections are quickly accessible and support teaching as well as research.) https://www.degruyter.com/view/db/btltll http://stephanus.tlg.uci.edu/ https://cil.bbaw.de/ https://latin.packhum.org/ http://cite-architecture.org/cts/ https://referenceworks.brillonline.com/entries/brill-s-new-pauly/ancient-authors-and-titles-of-works-Ancient_Authors_and_Titles_of_Works http://www.perseus.tufts.edu/hopper/collection?collection=Perseus:collection:Greco-Roman https://tesserae.caset.buffalo.edu/ 2. Digitale Datenbanken ermöglichen schnelle systematische Suchanfragen in großen Text- oder Informationsbeständen, auch über disziplinäre Grenzen hinweg. (Digital databases enable quick systematic queries for large collections of texts and other information, even beyond disciplinary boundaries.) https://about.brepolis.net/lannee-philologique-aph/ https://www.gbd.digital/metaopac/start.do?View=gnomon https://referenceworks.brillonline.com/browse/brill-s-new-pauly https://www.navigium.de/ https://www.navigium.de/latein-unterrichten.html http://lehrerportal.ccbuchner.de/Textanalyse/Default.aspx https://open-educational-resources.de/ https://github.com/sommerschield/ancient-text-restoration 3. Digitale Datenbestände werden vernetzt und für neue Anwendungszwecke kombiniert. (Digital data collections can be interconnected and combined for new use cases.) https://www.w3.org/standards/semanticweb/data https://lila-erc.eu/ https://peripleo.pelagios.org/ https://medium.com/pelagios/linked-open-data-to-navigate-the-past-using-peripleo-in-class-4286b3089bf3 https://topostext.org/ 4. Die maschinelle sprachliche Vorverarbeitung antiker Texte erleichtert den Zugang für Lernende und Forschende. (Natural language processing of ancient texts facilitates access for both teachers and researchers.) http://www.lemlat3.eu/ https://d.iogen.es/ https://alpheios.net/ B. Umgang mit dem Spracherwerb (Dealing with Language Acquisition) 5. Die Digitalisierung fördert einen multimodalen und inklusiven Spracherwerb. (Digitization supports multimodal and inclusive language acquisition.) https://www.hearinglink.org/living/loops-equipment/hearing-loops/what-is-a-hearing-loop/ http://www.cross-plus-a.com/balabolka.htm https://propylaeum.de/e-learning/historische-aussprache-des-lateinischen-und-altgriechischen https://www.youtube.com/watch?v=R5vdg_2i_pU https://www.youtube.com/watch?v=R5vdg_2i_pU https://www.lesediagnostik.de/eye-tracking/ https://www.youtube.com/watch?v=8QocWsWd7fc https://www.speechtexter.com/ https://etherpad.org/ https://moodle.org 6. Der Spracherwerb kann flexibel und personalisiert gestaltet werden. (Language acquisition can be designed in a flexible and personalized manner.) C. Umgang mit der Öffentlichkeit (Dealing with the Public) https://www.che.de/third-mission/ 7. Social Media ermöglichen eine schnelle Interessens- und Wissensvernetzung innerhalb und vor allem außerhalb einer definierten Gemeinschaft. (Social Media enable us to quickly connect interests and knowledge inside and especially outside of a specific community.) https://la.wikipedia.org/wiki/Vicipaedia_Latina http://forum.latein24.de/ https://twitter.com/RomAthen https://www.projekte.hu-berlin.de/de/callidus/blog-2017-2018 https://www.superprof.de/blog/lateinische-begriffe-im-deutschen/ https://www.facebook.com/klassphil/?__tn__=%2Cd%2CP-R&eid=ARDXqBAnvPxAePqFMxWrKxnFG2nfqqzKDWdoHdSg1CBNwBmcZbHwF5f8IWuQZXEODH6VKzqzWvUvUzfU https://www.instagram.com/fs_klassphil_tuebingen/ https://hu-berlin.academia.edu/MarkusAsper https://www.researchgate.net/profile/Monica_Berti https://www.br.de/alphalernen/faecher/latein/latein-einfach-erklaert-100.html https://www.pinterest.de/pin/5418462037462026/ https://www.youtube.com/channel/UChB8TYnAEtSIL1mY7FuBoqA https://learnattack.de/latein/saetze-uebersetzen?utm_campaign=Learnattack_Kanal&utm_source=youtube.com&utm_medium=social&utm_content=saetze-uebersetzen-latein&kanal=youtube#video-wie-du-einen-lateinischen-satz-%C3%BCbersetzt https://vimeo.com/276706092 8. Der digitale weltweite Zugang zu und Austausch von Wissen fördert das informelle Lernen und die Open-Science-Bewegung. (The worldwide digital access to and exchange of knowledge supports informal learning and the Open Science movement.) https://www.udemy.com/course/an-introduction-to-classical-latin/ https://www.coursera.org/learn/roman-architecture https://www.coursera.org/learn/plato https://www.youtube.com/channel/UCNW1n7ctSkW3cgYFCzKPK3A/videos https://scholar.google.de/ https://www.kim.uni-konstanz.de/openscience/onlinekurs-open-science-von-daten-zu-publikationen/ https://www.go-fair.org/fair-principles/ https://zenodo.org/record/3601182 https://zenodo.org/record/3816709 https://scm.cms.hu-berlin.de/callidus https://www.ianus-fdz.de/ https://opr.degruyter.com/ http://ahropenreview.com/ https://arxiv.org/help/trackback https://www.propylaeum.de/ https://journals.ub.uni-heidelberg.de/index.php/dco/index http://www.pegasus-onlinezeitschrift.de/ https://www.schule-bw.de/faecher-und-schularten/sprachen-und-literatur/latein https://www.schule-bw.de/faecher-und-schularten/sprachen-und-literatur/griechisch https://www.bmbf.de/de/citizen-science-wissenschaft-erreicht-die-mitte-der-gesellschaft-225.html https://pleiades.stoa.org/home Fazit (Conclusion) http://pom.bbaw.de/cmg/
@misc{schulz_natural_2020,
title = {Natural {Language} {Processing} for the {Classics} - {Teacher}'s {Toolkit}},
url = {https://doi.org/10.5281/zenodo.3953515},
abstract = {Talk at the 2020 virtual conference on Teaching Classics in the Digital Age, in section 1 (Tools and Platforms). The conference was organized by the University of Kiel (Germany).},
language = {eng},
urldate = {2020-07-02},
author = {Schulz, Konstantin},
month = jun,
year = {2020},
doi = {10.5281/zenodo.3928068},
note = {Library Catalog: Zenodo},
keywords = {Latin, computer-assisted language learning, corpus linguistics, language exercises, natural language processing},
}
Talk at the 2020 virtual conference on Teaching Classics in the Digital Age, in section 1 (Tools and Platforms). The conference was organized by the University of Kiel (Germany).
@misc{schulz_projekt_2020,
title = {Projekt {Daidalos} - {Maschinelles} {Lernen} für die semantische {Philologie}},
url = {https://zenodo.org/record/3928086#.Xv2uCZP7RQI},
abstract = {Vortrag im Forschungskolloquium Korpuslinguistik und Phonetik der Humboldt-Universität zu Berlin},
language = {deu},
urldate = {2020-07-02},
author = {Schulz, Konstantin},
month = jul,
year = {2020},
doi = {10.5281/zenodo.3928086},
note = {Library Catalog: Zenodo},
keywords = {Latin, computer-assisted language learning, corpus linguistics, language exercises, natural language processing},
}
Vortrag im Forschungskolloquium Korpuslinguistik und Phonetik der Humboldt-Universität zu Berlin
@incollection{beyer_callidus_2020,
series = {Digital {Classics} {Books}},
title = {{CALLIDUS} – {Korpusbasierte}, digitale {Wortschatzarbeit} im {Lateinunterricht}},
url = {https://books.ub.uni-heidelberg.de/propylaeum/reader/download/563/563-30-87642-5-10-20200227.pdf},
abstract = {Referring to a research project the authors elaborate the idea of a corpus-based approach for Latin vocabulary acquisition in schools and universities. This approach is supported by a newly developed software which applies both linguistic methods and knowledge (e. g. distributional semantics, association measures, mental lexicon) as well as requirements for a user-friendly software design. The purpose of this approach is the learner’s improvement of information retrieval from the mental lexicon in varying contexts.},
language = {Deutsch},
booktitle = {Der {Digital} {Turn} in den {Altertumswissenschaften}},
publisher = {Propylaeum-eBooks},
author = {Beyer, Andrea and Schulz, Konstantin},
editor = {Maier, Felix and Chronopoulos, Stylianos},
year = {2020},
doi = {https://doi.org/10.11588/propylaeum.563},
keywords = {scientific},
pages = {149--167},
}
Referring to a research project the authors elaborate the idea of a corpus-based approach for Latin vocabulary acquisition in schools and universities. This approach is supported by a newly developed software which applies both linguistic methods and knowledge (e. g. distributional semantics, association measures, mental lexicon) as well as requirements for a user-friendly software design. The purpose of this approach is the learner’s improvement of information retrieval from the mental lexicon in varying contexts.
@inproceedings{schulz_data-driven_2020-1,
address = {Berlin, Germany},
title = {A data-driven platform for creating educational content in language learning},
url = {http://ceur-ws.org/Vol-2535/paper_9.pdf},
abstract = {In times of increasingly personalized educational content, designing
a data-driven platform which offers the opportunity to create
content for different use cases is arguably the only solution to handle the
massive amount of information. Therefore, we developed the software
"Machina Callida" (MC) in our project CALLIDUS (Computer-Aided
Language Learning: Vocabulary Acquisition in Latin using Corpus-based
Methods) which is funded by the German Research Foundation.
The main focus of this research project is to optimize the vocabulary
acquisition of Latin by using a data-driven language learning approach
for creating exercises. To achieve that goal, we were facing problems
concerning the quality of externally curated research data (e.g. annotated
text corpora) while curating educational materials ourselves (e.g.
predefined sequences of exercises). Besides, we needed to build an interface
which would be user-friendly both for teachers and students. While
teachers would like to create an exercise or test and use them (even as
printed out copies) in class, students would like to learn on the
y and
right away.
As a result we offer a repository, a file exporter for various formats and,
above all, interactive exercises so that learners are actively engaged in
the learning process. In this paper we show the work
ow of our software
and explain the architecture focusing on the integration of Artificial Intelligence
(AI) and data curation. Ideally, we want to use AI technology
to facilitate the process and increase the quality of content creation,
dissemination and personalization for our end users.},
language = {English},
booktitle = {Proceedings of the {Conference} on {Digital} {Curation} {Technologies} ({Qurator} 2020)},
author = {Schulz, Konstantin and Beyer, Andrea and Dreyer, Malte and Kipf, Stefan},
month = jan,
year = {2020},
keywords = {scientific},
}
In times of increasingly personalized educational content, designing a data-driven platform which offers the opportunity to create content for different use cases is arguably the only solution to handle the massive amount of information. Therefore, we developed the software "Machina Callida" (MC) in our project CALLIDUS (Computer-Aided Language Learning: Vocabulary Acquisition in Latin using Corpus-based Methods) which is funded by the German Research Foundation. The main focus of this research project is to optimize the vocabulary acquisition of Latin by using a data-driven language learning approach for creating exercises. To achieve that goal, we were facing problems concerning the quality of externally curated research data (e.g. annotated text corpora) while curating educational materials ourselves (e.g. predefined sequences of exercises). Besides, we needed to build an interface which would be user-friendly both for teachers and students. While teachers would like to create an exercise or test and use them (even as printed out copies) in class, students would like to learn on the y and right away. As a result we offer a repository, a file exporter for various formats and, above all, interactive exercises so that learners are actively engaged in the learning process. In this paper we show the work ow of our software and explain the architecture focusing on the integration of Artificial Intelligence (AI) and data curation. Ideally, we want to use AI technology to facilitate the process and increase the quality of content creation, dissemination and personalization for our end users.
@misc{schulz_callidus_2019,
title = {{CALLIDUS}: {Einsatz} von {Korpora} im {Erwerb} historischer {Sprachen}},
shorttitle = {{CALLIDUS}},
url = {https://zenodo.org/record/3928083#.Xv2tYJP7RN0},
abstract = {Vortrag im Forschungskolloquium Korpuslinguistik und Phonetik der Humboldt-Universität zu Berlin},
language = {deu},
urldate = {2020-07-02},
author = {Schulz, Konstantin},
month = apr,
year = {2019},
doi = {10.5281/zenodo.3928083},
note = {Library Catalog: Zenodo},
keywords = {Latin, computer-assisted language learning, corpus linguistics, language exercises, natural language processing},
}
Vortrag im Forschungskolloquium Korpuslinguistik und Phonetik der Humboldt-Universität zu Berlin
@misc{schulz_callidus:_2018,
address = {Humboldt University Berlin},
type = {Talk},
title = {{CALLIDUS}: {Aktueller} {Stand} der {Entwicklung}},
author = {Schulz, Konstantin},
month = may,
year = {2018},
}
@misc{schulz_callidus_2018-1,
address = {Humboldt University Berlin},
type = {Talk},
title = {{CALLIDUS} and the {Ancient} {Greek} and {Latin} {Dependency} {Treebank}},
url = {https://www.linguistik.hu-berlin.de/de/institut/professuren/korpuslinguistik/events/misc-workshop},
author = {Schulz, Konstantin},
month = may,
year = {2018},
}
@misc{schulz_callidus_2017,
address = {Berlin},
type = {Talk},
title = {{CALLIDUS}: {Prototyping} a {Software} for the {Educational} {Processing} of the {Latin} {Language}},
url = {http://doi.org/10.5281/zenodo.3547215},
author = {Schulz, Konstantin},
month = oct,
year = {2017},
doi = {10.5281/zenodo.3547215},
keywords = {other},
}