Tekoälyn tulisi olla ihmisen tulkittavissa, mutta onko se mahdollista?

Kuvittele, että jonottaessasi ruokalassa näet seinällä viestin: ”Ruoan kanssa saa ottaa jälkiruoan tai kahvin”. Saatko ottaa sekä jälkiruoan että kahvin?

Siirryt ruokalan kassalle, jonka seinällä näet toisen viestin: ”Alennuksen saa näyttämällä työeläkekortin tai opiskelijakortin.”. Satutkin olemaan sekä eläkeläinen että opiskelija. Mikäli esität molemmat kortit, saatko silti alennuksen?

Nämä yksinkertaiset esimerkit osoittavat, kuinka monimutkainen ilmiö niinkin tyypillisen sanan kuin ”tai” tulkinta on. Sen suhteen on myös löydetty kiinnostavia eroja kielten välillä.¹

Kuvitellaan nyt, että ruokalan asiakaspalvelua operoi tekoäly, jonka kanssa voit keskustella chat-palvelun kautta. Järjestelmälle on annettu ruokalan säännöt, mukaan lukien seinällä nähdyt viestit. Esität nyt chatissa kaksi kysymystä:

Saanko ottaa ruoan kanssa sekä jälkiruoan että kahvin?
Saanko alennuksen esittämällä sekä työeläkekortin että opiskelijakortin?

Oletetaan, että saisit kumpaankin kysymykseen vastauksen: ”Et.”. Mistä tämä voisi johtua? Mahdollisesti siitä, kuinka tekoäly käsittelee sanaa ”tai”. Tämä ei kuitenkaan ole ainoa mahdollisuus: ehkä malli ei ole oppinut alennuksia koskevaa tietoa riittävän hyvin, ehkä sillä on yleinen taipumus vastata kieltävästi, tai ehkä sana ”työeläkekortti” on sille turhan vaikea. Mistä tiedämme, mikä selittäisi tehdyn virheen?

Nykyiset tekoälyjärjestelmät hyödyntävät suuria kielimalleja, joita on tyypillisesti pidetty ”mustina laatikoina”: niiden sisäinen toiminta ei ole ihmiskäyttäjän ymmärrettävissä. Tämä synnyttää ongelmia päätöksenteolta vaaditussa läpinäkyvyydessä. Mitä tärkeämpi päätös on kyseessä, sitä kestämättömämpää se on perustaa järjestelmiin, joiden toimintaa ei kyetä selittämään. Läpinäkyvyyden tavoite nostetaankin esiin myös EU:n AI Actissa.²

Tekoälyn tulkinta tieteellisenä tutkimusohjelmana

Kielimallien tulkinta on merkittävä tieteellinen haaste: kuinka ne jäsentävät tekstiä, hakevat tietoa muistista tai valitsevat eri sanojen välillä tuottaessaan kieltä? Mallien sisäinen toiminta on liian monimutkaista ymmärrettäväksi sellaisenaan, minkä vuoksi se tulisi linkittää ihmisen ymmärtämään käsitteistöön. Tähän on pyritty hyödyntämään esimerkiksi logiikan, kielitieteen ja psykologian teorioita.³

Eräät tutkijat ovat jopa esittäneet mallien tulkintaa ns. arkipsykologian avulla: millaisia ”uskomuksia”, ”toiveita” tai ”tavoitteita” niillä on?⁴ Itse asiassa teemme usein juuri tällaista tulkintaa huomaamattamme. Sanoessamme, että malli ”oppii”, ”muistaa” tai ”päättää” jotakin, hyödynnämme nimenomaan arkipsykologista käsitteistöä. On oleellista ymmärtää, milloin tällainen puhe on tieteellisesti perusteltua ja milloin taas harhaanjohtavaa.

Tutkimuksessani olen tehnyt kaksi merkittävää havaintoa, joihin tulisi nähdäkseni kiinnittää enemmän huomiota.

Ensiksi, ei vielä riitä, että jonkin mallin voi tulkita tietyllä tavalla. Samalle mallille on usein tarjolla useampi mahdollinen tulkinta, jotka saattavat olla keskenään ristiriitaisia. Tyypillisesti tällaisessa tilanteessa tulkinta valitaan enemmän käytännön tarpeiden kuin tieteellisen näytön perusteella.

Toiseksi, malleja olisi tärkeä tarkastella niiden itsensä ehdoilla. Erityisesti vertailussa ihmisten kanssa on usein päädytty epäselviin tilanteisiin: mallit näyttävät toimivan joiltakin osin ihmisten tavoin ja toisilta osin taas eivät.⁵ Jälkimmäiset tulokset tulkitaan usein virheiksi. Tämä jättää huomiotta toisen vaihtoehdon: entä jos mallit toimivatkin ”oikein”, mutta eri tavoin kuin oletamme?

Tekoälyn tulkinta on tieteellisesti – ja jopa filosofisesti – monisyinen ja ajankohtainen haaste. Mitä enemmän tekoälyä hyödynnetään päätöksenteossa, sitä oleellisempaa on taata sen läpinäkyvyys. Asiaan on tärkeä paneutua ennen kuin ongelma ehtii kasvaa hallitsemattomaksi.

1) S. Crain. 2012. The Emergence of Meaning. Cambridge: Cambridge University Press.
2) C. Panigutti, R. Hamon, I. Hupont, D. Fernandez Llorca, D. Fano Yela, H. Junklewitz, S. Scalzo, G. Mazzini, I. Sanchez, J.S. Garrido, & E. Gomez. 2023. The role of explainable AI in the context of the AI Act. FAccT ’23: Proceedings of the 2023 ACM Conference on Fairness, Accountability, and Transparency, s. 1139–1150.
3) T. Buder-Gröndahl. 2023. The ambiguity of BERTology: What do large language models represent? Synthese, 203: 15.
O. Guest & A.E. Martin. 2023. On Logical Inference over Brains, Behaviour, and Artificial Neural Networks. Computational Brain & Behavior 6: 213–227.
4) D. Chalmers. 2025. Propositional Interpretability in Artificial Intelligence. ArXiv preprint ArXiv:2501.15740.
5) T. Buder-Gröndahl. 2024. What Does Parameter-free Probing Really Uncover? In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers): 327–336.