Kursen behandlar korpusbaserade metoder, dvs det storskaliga studiet av skriven text och av transkriberade (talade eller tecknade) yttranden. Moment: Data, metod och evidens i olika lingvistiska traditioner. Kvantitativa egenskaper i språket, frekvens, n-gram. Datainsamling för olika typer av korpusar (inklusive traditionella korpusar, monitorkorpusar och webbkorpusar) och modaliteter (text, tal, tecken). Representation av korpusar: XML. Översikt över datorlingvistiska metoder för automatisk segmentering och annotering av text, inklusive tokenisering, ordklasstaggning och syntaktisk analys. Sökning i korpusar: reguljära uttryck. Analys av innehåll i korpusar på basis av förekomster och samförekomster. Relationen mellan korpusmaterial och forskningsfrågor. Etik, upphovsrätt, licenser.

Syllabus and application

Schedule and literature list

Schedule Autumn 2018 | Literature list Autumn 2018

Lecturer

Mats Wirén, mats.wiren@ling.su.se

Education

The teaching consists of lectures, laboratory exercises and seminars.

Instruction language

English

Prerequisites and special admittance requirements

Admitted to The Master’s Programme in Language Sciences at the Faculty of Humanities, or completed course Linguistics - Bachelor's course, 30 ECTS credits, Phonetics - Bachelor's course, 30 ECTS credits or Computational Linguistics - Bachelor's course, 30 ECTS credits. Swedish Upper Secondary School course English B/English 6 or equivalent.