Tenk deg at norsk bare hadde én ordbok, på 1530 ord, og ingen grammatikkbøker. At vi bare hadde noen få eksperter som kunne oversette vitenskapelig terminologi til norsk og at de fleste av disse befant seg i utlandet. Det er den faktiske situasjonen for akan, et språk i Ghana som snakkes av dobbelt så mange som snakker norsk.

Akan, selv om det snakkes av millioner av mennesker, har svært få digitale ressurser. TypeCraft er et prosjekt som prøver å hjelpe språk som akan ved å tilby den grunnleggende teknologi og kunnskap for utvikling av sårt tiltrengte ressurser som tekstbøker og ordbøker til bruk i elevenes språkopplæring. For oss i Norge er det en selvfølge at vi utdanner studenter på bachelornivå til å lære seg metoder for språkteknologiske oppgaver, slik at vi kan bygge viktige elektroniske språkresurser. Resultatene av slike virksomheter kan man finne samlet i Nasjonalbiblioteket og på andre steder som Norges digitale ressurser. Om vi bygger opp og tar vare på dette videre vil vi fortsatt kunne bruke vårt morsmål i alle sammenhenger i framtiden. Det vil nå ghanesere med sine morsmål også.

Anna Stuck

– Jeg har vært en del av dette prosjektet i snart to år og det har vært utrolig spennende å  oppleve hvordan faget mitt kan anvendes i praksis, sier Anna Struck.

Hun er snart ferdig med sin bachelorgrad i lingvistikk i Tübingen i Tyskland, og er aktivt involvert i arbeidet med TypeCraft. Struck har systematisert en samling av tekster som er hentet fra bøker og bidrag fra studenter som behersker akan. Tekstene er kodet inn i TypeCraft. Hun har også sortert metadataene for disse tekstene og opprettet en webside sammen med grunnleggeren av TypeCraft, professor Dorothee Beermann. TypeCraft er en eksepsjonell mulighet for å kunne lære og analysere språk som det ikke riktig har blitt opprettet et system for enda. På den måten får vi brukt teoretiske kunnskaper i praksis, sier Stuck.

TypeCraft ble startet i 2005 som del av et samarbeidsprosjekt mellom de lingvistiske instituttene ved NTNU og University of Ghana i Accra. Siden da har folk som har vært med i prosjektet fortsatt å publisere og utvikle språkressurser og språkverktøy. Siden 2005 har TypeCraft utviklet og publisert språkdata som må tilfresstille visse krav til kvalitet, og det vil si de må annoteres, og organiseres før de kan være til nytte. TypeCraft har ressurser fra mer enn 150 forskjellige språk, noen av dem er minoritetsspråk som det vietnamesiske språket katu, andre er språk som snakkes av millioner.

Gruppebilde i forbindelse med en workshop i prosjektet TypeCraft
Workshop TypeCraft. Foto: Privat

TypeCraft har alltid vært et samarbeid mellom lingvister, programutviklere og studenter. Etter at det lingvistiske institutt ved NTNU ble lagt ned i 2013 har ikke arbeidet med TypeCraft vært like intensivt, men ved hjelp av et stort internasjonalt nettverk og tidligere NTNU­studenter som legger ned mange dugnadstimer, er TypeCraft fortsatt et aktivt prosjekt. Det finnes omtrent 7000 språk i verden, og listen av språk som er truet er lang!

Det var Atle Prange, nå seniorutvikler i Kantega, og Pavel Mihaylov, nå senior prosjektleder i OntoText i Sofia, Bulgaria, og den gang utvekslingsstudent ved NTNU, som la grunnlaget for systemet. TypeCraft har etter det vært et prosjekt for flere generasjoner av studenter, og er fortsatt et miljø som kombinerer forskning og utvikling for å utdanne lingvister og programmerere for industri, næringsliv og akademia. Over flere år har internasjonale studenter dokumentert sine språk og dermed bidratt til å bygge opp de språkressurser som finnes i prosjektet.

–        Nye generasjoner av studenter er også entusiastiske over TypeCraft, og fortsetter å delta i utviklingen av systemet. Spesielt i løpet av de siste to til tre årene har studenter fra institutt for matematikk, ingeniørvitenskap og lektorutdanning kommet til systemet. Matematikk er, akkurat som naturlige språk, et symbolsk system. Dette er systemer som er vanskelige å forstå formelt siden de består av flere sammentvinnede lag med informasjon. I TypeCraft jobber vi med hvordan vi kan representere slike systemer uten å gå glipp av deres massive uttrykksfullhet, forteller professor Dorothee Beermann.

Tormod Haugland som studerer informatikk og matematikk ved NTNU har også jobbet mye med TypeCraft de siste årene.

–        Jeg har hatt sjansen til å få erfaring på et vitenskapelig felt jeg ikke kjente til på forhånd, i nært samarbeid med professorer og eksperter innenfor feltet. Dette har gjort det mulig for meg å trekke ut store mengder kunnskap som har vært, og vil bli, nyttige for min fremtidige karriere. Jeg har kickstartet mitt profesjonelle nettverk og fått mange kontakter som jeg ellers ville trengt år om ikke ti­år for å etablere. Jeg har også fått mye frihet til å forfølge mine egne vitenskapelige interesser i informatikk og matematikk. Vårt arbeid med TypeCraft har resultert i utvikling av noen interessante algoritmer og systemer som jeg håper kan gi vitenskapelige fremskritt, sier han.

–        Når vi utvikler språkressurser og utformer tekniske redskaper for automatisk prosessering av språk, utvikler vi en dyp forståelse av språket selv. Det å kombinere utvikling og forskning, og å bygge språkressurser, er nøyaktig hva TypeCraft dreier seg om, sier Beermann.

Bilde av hvordan et søk i TypeCraft kan se ut.
Bilde av hvordan et søk i TypeCraft kan se ut.

Se mer om TypeCraft i videoen “We can do Language” på YouTube!