Epistemic Rupture, Language Hegemony and its Disruptions within Machine Translation

CDC Research Colloquium

02. Jul

Seyi Olojo (UC Berkeley / Weizenbaum Institute)

Gegenwärtig ist die Mehrheit der linguistischen Korpora in der natürlichen Sprachverarbeitung (NLP) aus der englischen Sprache. Die Überrepräsentation des Englischen steht in krassem Gegensatz zu der minimalen linguistischen Repräsentation der globalen Mehrheit in Sprachmodellen. Diesen Sprachen, die auch als "Low Resource Languages" (LRL) bezeichnet werden, fehlen die Daten, die für eine gute Ausführung von NLP-Aufgaben erforderlich sind. Im Kontext maschineller Übersetzungssysteme (MT) gehen Sprachen und damit auch kulturelle Identitäten in der Übersetzung verloren. Wir untersuchen die Leistung von maschinellen Übersetzungsaufgaben für drei nigerianische Sprachen: Hausa, Ìgbò und Yorùbá. Anhand von 20 halbstrukturierten Interviews mit nigerianischen Muttersprachlern zeigen unsere Ergebnisse, wie die Teilnehmer die Nutzbarkeit von MÜ-Systemen in nigerianischen Kontexten wahrnehmen und welche idealen Anwendungsfälle sie sich vorstellen. Die Teilnehmer diskutieren auch die von ihnen beobachteten technischen Fehler und ordnen sie in die komplexen linguistischen Eigenschaften ihrer Muttersprache ein. Wir stellen fest, dass eine "anglophone Linse" vorherrscht, d. h. Wissensformen, die die koloniale und hegemoniale Macht der englischen Sprache kennzeichnen. Wir erörtern dann, wie die Teilnehmer (sozio-)technische Fehler beobachteten, die die oft unsichtbaren epistemischen Verletzungen widerspiegeln, die ein Ergebnis der Operationalisierung englischsprachiger MT-Systeme sind. Damit unterstreicht dieser Beitrag die Schwierigkeit, die komplexen sozialen, politischen und kulturellen Kontexte, die in nigerianischen Sprachen eingebettet sind, ganzheitlich darzustellen. Daher wird der Diskurs der Kritik auf die Ebene der Erkenntnistheorie ausgeweitet, was uns zu einer Untersuchung einlädt, die den Wissensrahmen hinterfragt, der die Definition einer "guten maschinellen Übersetzung" in Bezug auf einheimische Sprachen mit geringen Ressourcen bestimmt.

  • 02.07. / 12-2pm
  • Raum C40.320

Rückfragen und Kontakt

  • Randi Heinrichs