Kursen ger grundläggande kunskaper i datorlingvistik och korpuslingvistik. Kursen består av tre delar. Den första delen ger en översikt över datorlingvistik och tar upp begrepp som rationalism och empirism, kvantitativa egenskaper i naturligt språk, n-gram, reguljära uttryck och ändliga automater, tokenisering,ordklasstaggning och syntaktisk analys. Den andra delen behandlar korpuslingvistiska fundamenta som balans, representativitet, sampling, annotering, olika typer av korpusar, representation av olika modaliteter samt metoder för att analysera innehåll i korpusar. I den tredje delen integreras och fördjupas de tidigare delarna genom att studenterna läser och presenterar originalartiklar i datorlingvistik och korpuslingvistik.

Kursplan, schema och litteraturlista

Information om kursplan, schema och litteraturlista finns på www.ling.su.se/LIM014

Ansvarig lärare

Mats Wirén

Undervisning

Undervisningen sker i form av föreläsningar, laborationer och seminarier.

Språk

Kursen ges på engelska.

Förkunskapskrav och andra villkor för tillträde till kursen

Antagen till Masterprogram i språkvetenskap vid humanistiska fakulteten, eller avslutad kurs Allmän språkvetenskap - kandidatkurs, 30 hp, Fonetik - kandidatkurs, 30 hp, Datorlingvistik - kandidatkurs, 30 hp eller Teckenspråk - kandidatkurs, 30 hp. Engelska B.