Forskningen i datorlingvistik vid institutionen går tillbaka till 1960-talet, och har alltid haft en stark empirisk, kvantitativ komponent. Under 1990-talet och början av 2000-talet var avdelningen drivande i utvecklingen av SUC (Stockholm-Umeå Corpus), den första ordklasstaggade miljonordskorpusen för svenska. Ett senare bidrag är SMULTRON, en parallell trädbank för engelska, tyska och svenska. Aktuella forskningsteman kretsar kring identifiering och extraktion av konstruktioner, parallella trädbanker samt annotering av data för språk för vilka endast små resurser existerar.