Blogi

Generatiivinen AI, informaatio ja data

Kirjoittanut Loihde Advance | 21.03.2024

Tekoälyn sovellukset ovat monipuolistuneet ja kehittyneet huomattavasti. GenAI-ratkaisuja käytetään yhä enemmän erilaisissa toimintaympäristöissä, kuten asiakaspalvelussa, koulutuksessa ja tiedon koostamisessa. Tämän valtavirran myötä Retrieval-Augmented Generation (RAG) -ratkaisut ovat nousseet esille tehokkaana työkaluna. Tässä kirjoituksessa vertaillaan RAG ratkaisuja muihin tarjolla oleviin AI palveluihin sekä pohditaan, miten yrityksen tietopääomaa voitaisiin hyödyntää osana RAG ratkaisujen tulosta. Kirjoitus on jatkoa Gen AI:ta ja tietovarastoja käsittelevälle teemalle "Tietovaraston tekstipohjainen kyselytoiminto GPT:llä" sekä "Tietovaraston geepeeteestäminen". Jos haluat lukea lisää Retrieval-Augmented Generationista (RAG) niin suosittelen myös lukemaan kollegani Juuso Salmun blogin aiheesta täältä.

RAG-ratkaisut toimivat kuin henkilökohtainen avustaja, joka kykenee kahlaamaan suuria tietojen joukkoa väsymättä. Ne yhdistävät tiedonhakukyvyn ja luonnollisen kielen tuottamisen, jotta ne voivat tuottaa hyvin perusteltuja vastauksia. RAG-ratkaisujen avulla organisaatiot voivat tarjota asiakkailleen parempaa palvelua sekä tehostaa prosesseja. RAG-ratkaisujen suosio ja tehokkuus tekevät niistä osan nykyaikaista tekoälyä, ja niiden odotetaan muuttavan merkittävästi tapaa, jolla käsittelemme ja hyödynnämme tietoa.

RAG-ratkaisun ytimessä on tekniikka, jota kutsutaan vektorikannaksi. Tämä vektorikanta tallentaa asiakkaan tekstit ja dokumentit yhdeksi tietokokonaisuudeksi, jonne data tallennetaan sisällön perusteella jäsentyväksi verkostoksi. Vektorikannan päätehtävä on tuottaa käyttäjän kysymystä semanttisesti lähellä olevaa tietoa. Kun käyttäjä esittää kysymyksen kielimallille, RAG-ratkaisu käyttää vektorikantaa löytääkseen tietoa, joka on lähinnä kysymyksen merkitystä. Löydetty tieto välitetään kielimallille käyttäjän kysymyksen ohella, jolloin kielimallilla on käytössään kysymystä vastaava konteksti, joka toimii vastauksen perustana. Vektorikanta- ja kielimalli-yhdistelmä on tehnyt RAG-ratkaisuista tehokkaan työkalun luonnollisella kielellä esitettyihin kysymyksiin.

Asiakkaan tietolähteet eivät rajoitu pelkästään tekstiin ja dokumentteihin, vaan ovat usein myös tietovarastoja, jotka sisältävät "kovaa" dataa, kuten numerotietoja, tilastoja, aikasarjoja ja muita rakenteellisia tietoja. Tämä tieto on usein keskeistä liiketoimintapäätösten tekemisessä, sillä se tarjoaa konkreettisen kuvan yrityksen suorituskyvystä, asiakaskäyttäytymisestä, markkinatrendeistä ja muista kriittisistä tekijöistä.  

Siten, vaikka sekä vektorikannat että tietovarastot ovat asiakkaan tietolähteitä, niiden roolit, toiminnot ja hyödyt ovat erilaiset. Vektorikannat toimivat henkilökohtaisen avustajan tavoin, joka ymmärtää ja tuottaa luonnollista kieltä, kun taas tietovarastot toimivat datalähteenä, joka tarjoaa objektiivista, konkreettista ja mitattavaa tietoa.

Kielimalleihin liittyvät innovaatiot jatkavat kehitystä. Jo nyt on tarjolla malleja, jotka pystyvät kutsumaan 
toimintoja tai funktioita. Älykkäiden palveluiden hyödyntäminen avaa uusia mahdollisuuksia tietojen hakemiseen, 
analysointiin ja informaation tuottamiseen. Voidaanko vektorikannan informaatio ja tietovarastossa oleva kova
data yhdistää kokonaisuudeksi, joka osaa koostaa datan ympärille sanallisen kontekstin. Voisiko esim. co-pilot
käyttää asiakkaan tietovarastoa osana vastausta. Tämä kasvattaisi palvelun ilmaisuvoimaa merkittästi esim. 
'Kokoa tilinpäätösraportti viime vuodelta' -tyyppisiksi kokonaisvaltaisiksi toiminnoiksi. Jo nyt löytyy ensimmäisiä 
toteutuksia, jossa co-pilotin kylkeen liitetään muita tietolähteitä, esim. Microsoft Graph connector.

Loihteen oma, datan itsepalvelukäyttöön tehty kyselyavustin, tarjoaa mahdollisuuden keskustella datan kanssa. Ratkaisu ei perustu RAGin kaltaiseen vektorikantaan, vaan se hyödyntää generatiivista AI:ta käyttäjän kyselyn tulkisemisessa. Ratkaisu ei edellytä datojen siirtelyä ja siksi kykenee tukemaan suuria tietovarastoja reaaliaiaksesti asiakkaan omassa suojatussa ympäristössä. Toiminnon käyttö ei edellytä teknistä osaamista, suomen kieli riittää.

Tulevaisuudessa näemme entistä enemmän ratkaisuja, jotka yhdistävät RAG-ratkaisujen kaltaiset semanttisen informaation hakuun keskittyvät työkalut sekä kovaan dataan perustuvat toiminnot.  Nämä kaksi lähestymistapaa eivät ole toisiaan poissulkevia, vaan voivat täydentää toisiaan. RAG-ratkaisu voisi tarjota laajan yleiskuvan ja semanttisen ymmärryksen, kun taas kovaan dataan perustuvat hakupalvelut voivat tarjota syvällistä, kvantitatiivista näkemystä.  

Näitä kahta työkalua voidaan käyttää joko yhdessä tai erikseen riippuen asiakkaan tarpeista. Joissakin tapauksissa ne voivat toimia itsenäisinä palveluina, tai vaihtoehtoisesti ne voivat olla osa laajempaa AI-työjonoa, jossa ne toimivat yhdessä muiden työkalujen kanssa tarjoamaan kattavan, monitahoisen näkymän asiakkaan tiedon tarpeisiin. 

Tämä kehityssuuntaus osoittaa, kuinka generatiivinen AI jatkaa kehittymistä ja monipuolistumista. Tekoäly ei ole enää vain yhden koon ratkaisu, vaan se on jatkuvasti kehittyvä, monipuolinen työkalu, joka pystyy vastaamaan erilaisiin haasteisiin ja tarpeisiin. Tulevaisuudessa voimme odottaa näkevämme vielä enemmän innovaatioita, jotka hyödyntävät sekä RAG-ratkaisujen että kovaan dataan perustuvien datapalvelujen vahvuuksia.