Tid: Torsdag, 3 november 2016, kl. 15:00–17:00
Plats: C307, Södra huset, Frescati

Postseminarium följer direkt efter i institutionens pentry.

Sammanfattning

Historisk text är en rik informationskälla för historiker, filologer och andra forskare inom humaniora. Innehållet i de historiska texterna är dock inte alltid så lättåtkomligt. Många texter finns fortfarande inte tillgängliga i ett digitalt, sökbart format. Även för texter som har digitaliserats saknas språkteknologiska verktyg som är särskilt anpassade för sökning i historiska texter, som ofta uppvisar stor stavningsvariation kombinerat med såväl morfologiska som syntaktiska skillnader jämfört med modernt språk. Under seminariet kommer jag att presentera mitt avhandlingsarbete, där jag har tagit fram metoder för automatisk informationssökning i historisk text, baserat på tre huvudsteg:

  1. stavningsnormalisering, dvs "översättning" från historisk stavning till modern stavning
  2. lingvistik analys av den normaliserade texten, med hjälp av existerande taggare och parsrar för modernt språk
  3. extraktion och rankning av fraser som är relevanta för sökfrågan

Ett mål är att verktyget ska vara språk- och genre-oberoende. Som en fallstudie tillämpar jag dock mina metoder på data från Gender and Work-projektet, där historiker undersöker hur män respektive kvinnor försörjde sig i det tidigmoderna svenska samhället (cirka 1500-1850). Jag visar hur mitt system kan användas för att automatiskt extrahera och ranka verbfraser som beskriver arbete i texter från denna tidsperiod. Stor vikt läggs vid stavningsnormaliseringssteget, som är nyckelkomponenten i mitt arbete.

Läs mer om Eva Pettersson, Uppsala universitet

Hjärtligt välkomna!

Ljuba Veselinova