Anna Hjalmarsson, forskare vid Tal, musik och hörsel, KTH, har fått anslag till ett treårigt forskningsprojekt med titeln: "Klassificering och produktion av pauser för att kontrollera flödet i konverserande system". Medarbetare i projektet är bl.a. Mattias Heldner, professor i fonetik vid Institutionen för lingvistik.

Totalt beviljat anslag: 2 400 000 kr.

Projektbeskrivning

Talgränssnitt gör det möjligt för användare att med interagera med maskiner med hjälp av rösten. Tekniken som används i dessa tjänster har blivit avsevärt robustare under senare år. En viktig anledning till dessa framsteg är att man har börjat använda sig av statistiska metoder som är baserade på stora datamängder. Trots framgångarna upplever användare ofta att de är begränsade när de interagerar med dessa system jämfört med när de interagerar en människa. Som användare måste uttrycka sig på ett visst sätt för att systemet ska ”förstå”. Dessa system har inte bara ett begränsat vokabulär utan är också begränsande i hur och när man kan tala till det.

Vår forskargrupp har under senare år fokuserat på att bygga dialogsystem som beter sig mer likt en mänsklig konversationspartner för att interaktionen med dessa system ska upplevas mer som mänsklig kommunikation. I det här projektet vill vi fokusera på pausering. Genom att klassificera och producera fyllda och ofyllda pauser i dialogsystem för att signalera yttrandestruktur och tydligare illustrera vems tur det är att tala. Ett problem i dagens dialogsystem är användares talarslut detekteras med hjälp av en förutbestämd tystnadsgräns för att detekterar när talaren är färdig. När en sådan tystnad har detekteras genererar systemet sitt yttrande i ett stycke utan att ta hänsyn till dialogkontexten. Människor å andra sidan sköter planering och realisering av tal parallellt. Planeringen av nästa yttrande påbörjas redan innan föregående talare är färdig. När tillfälle ges, portioneras yttrandet ut stegvis alltmedan planeringen av resten av yttrandet fortgår. Detta är en effektiv strategi eftersom början av ett yttrande kan användas till att planera resten. Om talaren tillfälligt har slut på saker att säga måste denne på något sätt signalera till användaren att den inte är färdig. På samma sätt måste lyssnare lystra till sådana signaler för att undvika att avbryta talaren under ett pågående yttrande.

I projektet avser vi använda en inkrementell dialogsystemarkitektur som utvecklats i vår forskningsgrupp för att på ett liknande sätt portionera ut yttranden stegvis. I en inledande studie har vi visat att ett inkrementellt dialogsystem kan man minska systemets reaktionstid. Dessutom, i en jämförelse med en icke-inkremenell version av samma system, upplevdes den inkrementella versionen som artigare, effektivare och enklare att avgöra när man ska tala. I det här projektet vill vi använda inkrementell processning för att detektera och producera fyllda och ofyllda pauser. Anpassningen baseras på resultat från tidigare studier av mänsklig kommunikation som visar att olika beteenden, verbala och icke-verbala, påverkar sannolikheten för att ett talarbyte. Genom att registrera sådana beteenden kan systemet anpassa svarstiden dynamiskt. Om sannolikheten är för att användaren är färdig är stor kan systemet ta turen direkt och börja tala. Om sannolikheten är liten kan det vänta längre än normalt. Syftet med detta är att undvika långa och förvirrande tystnader samt missförstånd som leder till att användaren eller systemet avbryter varandra. Under projektet första del kommer vi att analysera svarstider för olika kontexter i interaktion mellan människor i en redan inspelad taldatabas. Modeller baserade på dessa data kommer sedan att implementeras och utvärderas i vår redan existerande inkrementella dialogsystemplattform.