- Du är här:
- Institutionen för lingvistik
- Datorlingvistik
- SUC
Nyheter
- Planerat driftavbrott av Mondo 2012-06-12 - 13 2012-05-15
- "New directions in lexical typology" 2012-05-15
- Professor Peter K Austin gästforskar hos oss 21 -24 maj 2012-05-15
SUC
Stockholm-Umeå Corpus (SUC) är en samling texter på svenska. SUC består av totalt en miljon ord.
Varje ord i SUC har märkts upp med information om ordklass, morfologiska särdrag och grundform. SUC är en balanserad korpus, vilket betyder att den består av texter från en rad olika genrer. Texterna i SUC skrevs på 1990-talet. SUC finns tillgänglig i två versioner, SUC 1.0 och SUC 2.0.
Vi arbetar för närvarande på en ny version av SUC, som innehåller all text i de 114 böcker som användes som källmaterial för korpusen, tillsammans med ett stort antal rättelser till den annoterade delen av korpusen. Vänligen kontakta Robert Östling (robert@ling.su.se) om du är intresserad av att ta del av eller bidraga till den kommande versionen av SUC.
Licensiering av SUC har delegerats till Språkbanken på Göteborgs universitet, men Mats Wirén (mats.wiren@ling.su.se) på Stockholms Universitet har också rätt att tillhandahålla kopior av SUC mot ett undertecknat licentsavtal
licensavtal (pdf) (38 Kb)
Språkbanken har ett konkordansverktyg online som använder SUC och den svenska PAROLE-korpusen. Detta kan användas av vem som helst, utan licens.
Webbredaktör:
Ulla Bjursäter
Senast uppdaterad:
27 april 2011
Sidansvarig: Avdelningen för datorlingvistik


