Text als Korpus-Repository für die mehrsprachige maschinelle Übersetzung ressourcenarmer Sprachen

Project: TextAsCorpusRep

Studierende: Christian Schuler, Deepesha Saurty, Tramy Thi Tran

Okt 23 – Mär 24 (6 Monate) | Runde 3

Fast die Hälfte der rund 7.000 derzeit gesprochenen Sprachen wird voraussichtlich in diesem Jahrhundert aussterben. Schätzungsweise weniger als 5% davon werden online verwendet oder haben eine nennenswerte digitale Präsenz. Der Mangel an Ressourcen, darunter Sprachdaten und Übersetzungssysteme, erschwert die effektive Kommunikation und das Verständnis zwischen vielen Sprachen. Dies stellt ein erhebliches Hindernis für die Förderung von Inklusivität und kulturellem Austausch dar.

**Ziel unseres Projekts ist die Sammlung und Kuratierung von Sprachtextdaten zur Unterstützung der natürlichen Sprachverarbeitung, insbesondere der Entwicklung robuster Übersetzungssysteme für ressourcenarme Sprachen. Sozial zielt dieses Projekt darauf ab, marginalisierte Sprachgemeinschaften zu stärken und Kommunikationslücken zu schließen, um den Spracherhalt und die kulturelle Vielfalt zu fördern. Wissenschaftlich gesehen leistet es einen Beitrag zur Sprachtechnologie und zu Übersetzungssystemen für ressourcenarme Sprachen und schließt damit eine kritische Forschungslücke.

Mauritisches Kreol (Morisyen) wird auf Mauritius gesprochen, einem Inselstaat südöstlich des afrikanischen Kontinents. Erst kürzlich hat die Mauritian Creole Academy eine standardisierte Schreibweise (Lortograf Kreol Morisien) gefördert, die sich trotz Unterstützung der mauritischen Regierung noch nicht in der breiten Bevölkerung durchgesetzt hat. Da große Teile der Bevölkerung nach wie vor so schreiben, wie sie es bevorzugen, gibt es für viele Wörter alternative Schreibweisen. Mit etwa 1,3 Millionen Sprechern ist Morisyen eine relativ kleine Sprachgemeinschaft. Die Entwicklung oder gar Evaluierung maschineller Übersetzungen für eine Sprache ist ohne öffentlich verfügbare Datensätze nicht möglich, die für Morisyen derzeit noch fehlen.

Kobani, ein Subdialekt des Nordkurdischen (Kurmandschi) und wird im Norden Syriens gesprochen. Da die computergestützte Verarbeitung natürlicher Sprache für Kurdisch noch in den Kinderschuhen steckt, gibt es hierfür bisher nur wenige Anwendungen, geschweige denn kostenlose und frei zugängliche. Die wissenschaftliche Arbeit zur kurdischen Sprache konzentriert sich tendenziell auf wenige Dialekte und manchmal sogar nur auf einen einzigen Dialekt, meist Zentralkurdisch, auch Sorani genannt. Zu Kurmandschi, einem der wichtigsten Dialekte der kurdischen Sprache mit sogar mehr Muttersprachler:innen als Sorani, schreiben Haig und Öpengin (2014, S. 144): “Like any other natural language, Kurmanji encompasses a considerable spectrum of regional variation. Yet within academia, regional variation in Kurmanji has been almost entirely neglected.”

Vietnamesisch wird in Vietnam im Südosten Asiens gesprochen. Vietnamesisch hat verschiedene Dialekte und einen vom Chinesischen und Französischen beeinflussten Wortschatz. Obwohl Vietnamesisch im Vergleich zu unseren beiden anderen Zielsprachen deutlich mehr Muttersprachler hat und digital stärker präsent ist, ist es immer noch eine ressourcenarme Sprache, für die Anwendungen wie Google Translate nur schwer zufriedenstellende Übersetzungen liefern.

Wir halten es für wichtig, die Sprachgemeinschaften und Muttersprachler:innen in unser Projekt einzubeziehen. Dies gewährleistet zuerst die angemessen Beachtung und Abstimmung der Forschungsziele mit den Wünschen der Betroffenen und sichert später eine hohe Datenqualität. Die Erhebung weiterer Daten von geringerer Qualität wäre nicht sinnvoll und nur die höchste Qualität kann ansatzweise eine Chance bieten, dem aktuellen Datenmangel in unseren Zielsprachen entgegenzuwirken.

Literatur

Öpengin, E. & Haig, G. (2014). Regional variation in Kurmanji: A preliminary classification of dialects. Kurdish Studies (2:2), 143-176.

Zurück zur Übersicht