Miksi tarvitsemme kansallisen kielioperaattorin?

Kukapa ei olisi käyttänyt Googlen kääntäjä -palvelua ja huomannut, että se on kehittynyt viime aikoina oikeastaan jo varsin käyttökelpoiseksi – suomeksikin!

Automaattinen kielenkääntäminen on yksi ratkaisu, jossa hyödymme luonnollisen kielen käsittelystä ja sen varaan kehitetystä tekoälypalvelusta. Tulevaisuudessa voimme kohdata tekstiä, ääntä ja puheentunnistusta hyödyntäviä tekoälypalveluja entistä moninaisemmissa ja vaativammissa yhteyksissä.

Yksi suurimmista yhteiskuntaan yleisesti kohdistuvista tekoälyn kehittymisen vaikutuksista on erilaisten palveluiden automatisointi ja mahdollisuus räätälöidä niitä ihmisten yksilöllisiin tarpeisiin. Automaation lisäksi suomenkielistä tekoälyä hyödyntävistä järjestelmistä saattaa syntyä myös täysin uusia työkaluja, jotka voivat lisätä hyvinvointia sekä työn tuottavuutta. Tekoälyn avulla voidaan huomioida myös erityistä tukea vaativia ryhmiä, kuten vanhuksia, näkö- ja kuulovammaisia sekä liikuntarajoitteisia ihmisiä.

Jotta saamme meille kehitettyjä tekoälypalveluja äidinkielellämme, tarvitsemme suomenkielisiä (tai ruotsin- tai saamenkielisiä) kieliresursseja. Tällaisia ovat esimerkiksi kieliaineistot – eli kielikorpukset – jotka sisältävät ihmisten tuottamaa kieltä puheena tai tekstinä, sekä niiden avulla rakennettuja puheen kielimalleja. Tietokone pitää opettaa siis ”puhumaan” suomea. Tarkoitus on myös, että mallit ottaisivat huomioon mm. erilaiset murresanat ja ääntämyksen vaihtelun, on puhuja sitten nuori tai vanha, tai jos käytettävä kieli ei ole hänen äidinkielensä.

Vaikka markkinoilla onkin kielimalleja – kuten Googlen palvelun takana – merkittävimmät niistä ovat suljettuja ja palvelevat ensisijaisesti mallin kehittäneen kansainvälisen yrityksen omia tarpeita. Näiden yritysten prioriteetit ovat luonnollisesti suurilla markkinoilla, jolloin suomalaisia kieliä käyttävät ratkaisut saapuvat vasta kauan suurempien kielialueiden jälkeen – jos silloinkaan.

Pienten kielialueiden on vauhditettava itse omien kieliensä hyödyntämistä

Suomessa on tunnistettu tarve palveluihin omalla äidinkielellämme, mutta yritykset ja julkiset toimijat lähestyvät ongelmaa usein erillään sekä itsenäisesti, ja ratkaisut ovat usein tutkimuskäyttöön suunnattuja muun muassa lisensioinnin takia. Pienet kielialueet jäävät auttamatta jälkeen tekoälyn kehityksessä, jos niillä ei ole omaa kielioperaattoria.

Tarvittaisiin siis toimija, joka varmistaa, että kieliresurssimme ovat pitkäaikaisesti ja luotettavasti saatavilla. Tämä organisaatio huolehtisi aineistoista, ohjelmistoista ja malleista sekä ylläpitäisi ohjeistusta siitä, miten näitä resursseja käytetään ja jaetaan. Sama organisaatio voisi koordinoida yhteistyötä kaikkien Suomen kielten kieliteknologioista kiinnostuneiden tahojen välillä.

Helmikuussa pidetyssä Euroopan komission työpajassa kieliteknologioista osana digitaalista Eurooppaa, Suomessa tehty pioneerityö esiteltiin esimerkkinä parhaista eurooppalaisista käytännöstä. Valtion kehitysyhtiö Vake julkaisi loppuvuodesta 2019 esiselvityksen Suomen kielien resursseista osana tekoälykehitystä, johon haastateltiin 50 kaupallisen ja julkisen organisaation edustajaa heidän tarpeistaan. Tutkimus osoitti, että laajalle, tasapainoiselle arkikielen puhekorpukselle on kaupallisia tarpeita. Parhaillaan pohditaan, mihin tällainen korpus pitäisi sijoittaa ja miten sen tulisi toimia. Luotu toimintamalli voisi toimia esimerkkinä samankaltaisille operaatioille muissa maissa.

Tekoälyä hyödyntävien sovellusten markkina on voimakkaassa kasvussa ja suomalaisilla yrityksillä voisi olla paikka kehittämisen kärkijoukoissa. Koska markkinoilta puuttuu toimija, joka kiihdyttäisi Suomen kielien hyödyntämistä, valtiolla olisi tässä mahdollisuus ottaa toimintaa vauhdittava rooli kielioperaattorin syntymiseksi.

Valikko