Nya metoder och algoritmer för ordmatchning

Normalt sker matchningen mellan översatta texter i två språk. En av de nya modeller som Robert Östling lanserar i sin avhandling är utformad så att det går att matcha ord från tusentals språk samtidigt. En annan utnyttjar lingvistisk information som finns tillgänglig för ett litet antal välstuderade språk för att ge en noggrannare matchning även till de språk som vi vet väldigt lite om. De metoder han utvecklat innebär, bland annat, att språkforskare nu har lättare att hitta mönster i språk via datorn istället för att analysera manuellt. Robert använder en typ av modeller som kallas bayesianska, vilket gör det lättare att berätta för datorn hur språk brukar bete sig, så att den inte kommer med helt orealistiska förslag på matchningar.

Han har också tillämpat sina modeller på svenskt teckenspråk för att tillföra lingvistisk information till Svensk teckenspråkskorpus, en samling av teckenspråkskonversationer som har tagits fram på institutionen för lingvistik.

Robert Östling
Robert Östling

”Det var en spännande utmaning att inte bara använda modellen på skriftspråk utan även på teckenspråk som är en helt egen typ av språk med såväl likheter som olikheter jämfört med talade och skrivna språk.” berättar Robert, som också använt modellen för att till exempel se var i världen som ”eld” och ”träd” uttrycks med samma ord, och för att undersöka vilken ordning ord kan ha i Nya testamentets 1001 språk.

Robert börjar nu arbeta som forskare inom projektet MINGLE, där målet är att ta fram modeller för barns tidiga språkutveckling.

Avhandlingen i lingvistik - ”Bayesian Models for Multilingual Word Alignment” - försvarades fredagen 22 maj 2015 vid Stockholms universitet.
Opponent var docent Sharon Goldwater, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh.

Länk till avhandlingen i DiVA - Digitala vetenskapliga arkivet

MINGLE (Modelling the emergence of linguistic structures in early childhood)

Svensk teckenspråkskorpus

Nya testamentet: Översättningar av bibelns Nya testamente finns på tusentals språk, varav många är tillgängliga digitalt via internet.