Tekoälystä ei ole hyötyä, jollei data ole kunnossa
Tekoälyn kyky ratkaista ongelmia ja tukea liiketoimintaa riippuu sen taustalla olevan datan laadusta ja käsittelystä. On tärkeää huomioida datan haasteet ja suunnitella tekoälyn käyttöönotto huolellisesti, jotta tulokset ovat luotettavia ja tehokkaita.
Yksi asia, joka julkisessa AI-keskustelussa tuntuu usein unohtuvan, on tekoälyn tarvitsema data. Nykyiset tekoälymallit eivät luo itsenäisesti uutta, eikä tekoälyllä ole ihmisen kaltaista kykyä luovuuteen. Ihmiset voivat innovoida ja luoda täysin uusia asioita, näkökulmia, taidetta ja toimintamalleja, kun taas tekoäly pystyy vain koostamaan, luokittelemaan ja tiivistämään olemassa olevaa dataa.
Data on tekoälyn toiminnan perusta, ja sen laatu vaikuttaa suoraan tekoälyn tulosten luotettavuuteen ja tehokkuuteen. Se, millaista dataa tekoälyyn syötetään, määrittää pitkälti sen, mihin tekoäly voi kyetä. Tekoälyn toiminnan kannalta datan laatu on kriittisessä roolissa.
Vanha tietojenkäsittelyn periaate ”Garbage in, garbage out” (GIGO) pitää täysin paikkansa myös tekoälyn kanssa. Jos tekoälyn kouluttamiseen käytettävä data on huonolaatuista tai virheellistä, ei AI pysty siitä taikomaan oikeita ja hyödyllisiä tuloksia.
Tekoälyn kanssa perusdatan laatu ja oikeellisuus ovat oikeastaan vieläkin tärkeämpiä kuin perinteisessä tietojenkäsittelyssä ja ohjelmoinnissa. Tekoäly kykenee kuitenkin tuottamaan tuloksia, jotka saattavat näyttää uskottavilta, vaikka ne perustuisivat täysin väärään tai huonolaatuiseen dataan. Myös tekoälyn tuottamien tulosten kriittinen tarkastelu on aina paikallaan.
Ensin data kerätään ja valmistellaan tekoälylle
Yrityksillä on tänä päivänä valtavia määriä tietoa omissa tai ulkoistetuissa tietojärjestelmissään. Tämä tieto on usein pirstoutuneena useisiin tietovarastoihin, tietokantoihin, kovalevyille tai eri pilvialustoille ties missä muodossa. Tällaisen monimuotoisen datan hyödyntäminen tekoälyn kouluttamisessa ei ole sellaisenaan mahdollista, vaan se vaatii useita tärkeitä työvaiheita.
Aluksi tulee selvittää, mihin data on talletettu ja missä muodossa se on. On myös tärkeää tietää, kuinka paljon dataa on kussakin lähteessä. Tältä pohjalta voidaan määritellä, miten dataan päästään käsiksi, millaisia käyttöoikeuksia kuhunkin datalähteeseen tarvitaan ja kuka myöntää nämä käyttöoikeudet.
Kun käyttöoikeudet ovat kunnossa, voidaan rakentaa prosessit datan keräämiseksi eri lähteistä. Tämä voi usein tarkoittaa ETL-työkalujen käyttämistä tai pilvialustoilta löytyvien integraatiopalvelujen hyödyntämistä. Nämä prosessit on käytännössä myös automatisoitava, jotta datavirta alkuperäisistä lähteistä tekoälyn käyttöön on jatkuvaa.
Toisessa vaiheessa data yhdistetään ja puhdistetaan
Eri lähteistä saatava data täytyy yhdistää yhtenäiseksi tietomassaksi. Tähän tarkoitukseen saatetaan tarvita Data Warehouse tai Data Lake -ratkaisu, riippuen käyttötarkoituksesta ja vaatimuksista.
Jotta saadaan laadukasta dataa tekoälyn koulutukseen, tuplatiedot, ristiriidat ja epäjohdonmukaisuudet poistetaan. Dataa voidaan joutua usein myös konvertoimaan yhtenäiseen muotoon, luokittelemaan ja puhdistamaan, jotta se soveltuu AI:n kouluttamiseen.
On myös hyödyllistä skaalata dataa siten, että eri ominaisuuksilla on samanlaiset arvoalueet. Tämä parantaa koneoppimisalgoritmien tehokkuutta. Kun data on koottu, puhdistettu ja muokattu, se jaetaan koulutus-, testaus- ja validointijoukkoihin. Näin tekoälymallin suorituskykyä voidaan arvioida luotettavasti ja vältetään ylikouluttaminen.
AI tuottaa haluttuja tuloksia, kun data on valmis
Kaikki edellä kuvattavat vaiheet tulee suorittaa ennen tekoälyn varsinaista käyttöönottoa. Nämä vaiheet ovat usein iteratiivisia, ja prosessin aikana voidaan palata aiempiin vaiheisiin.
Selvää kuitenkin on, että jos liiketoiminta aikoo hyödyntää tekoälyä tehokkaasti, sen perusta pitää hoitaa kuntoon.
Tiivistettynä tekoälyn taustalla olevan datan tulee olla:
- Kerätty kattavasti ja oikea-aikaisesti eri tietolähteistä.
- Yhdistetty ja puhdistettu, jotta datassa ei ole virheitä, ristiriitaisuuksia tai duplikaatteja.
- Muokattu ja valmisteltu tekoälyn oppimisprosesseihin sopivaksi.
- Oikein jaoteltu koulutus-, testaus- ja validointijoukkoihin, jotta tekoälyä voidaan opettaa luotettavasti ja välttää ylikouluttamista.
Tämä vaatii tarkkaa suunnittelua, tehokkaita ja sopivia työkaluja sekä osaavia asiantuntijoita. Ilman tätä perustaa tekoälymallit eivät voi tuottaa luotettavia ja relevantteja tuloksia liiketoiminnan tueksi ja ohjaamiseksi.
Aloita datasta – varmista sen laatu ja eheys ennen tekoälyn käyttöönottoa!
Kirjoittaja: Timo Haavisto, kehittäjätiimin esihenkilö Fujitsulla
Jos tarvitset AI-osaajaa, niin ota yhteyttä Nicoon ja Juha Hyväriseen. Meidän kauttamme saat käyttöön Nicon osaajat, Fujitsun osaajat sekä kattavan alihankkijaverkostomme.