Konekuuntelu tai äänen analysointi täydentää konenäköä
Konenäkö tai kuvan koneellinen analysoiminen on monelle jo tuttua. Hiotun tuottamilla eri konenäön sovelluksilla esimerkiksi tarkkaillaan ja varmistetaan laatua valmistavassa teollisuudessa.
Ääntä voi analysoida ihan kuten kuvaakin, eikä se teknisesti itse asiassa paljoa eroa konenäöstä. Jos äänite on pitkä lista numeroita, muodostaa kuva kaksiulotteisena ja monikanavaisena elementtinä taulukon numeroita.
– Neuroverkkomielessä tai matemaattisen algoritmirakentamisen kannalta perusperiaate on äänen analysoimisessa sama kuin kuvankin analysoimisessa, joitain teknisiä yksityiskohtia lukuunottamatta, Hiotun neuroverkkoasiantuntija Jonne Tamminen kertoo.
Tällaisia ovat esimerkiksi ääninauhoituksessa useat samaan aikaan kuuluvat äänet. Ne saattavat aiheuttaa häiriöitä toistensa kanssa joskus voimistaen, joskus vaimentaen toisiaan. Se voi vaikeuttaa äänen tulkintaa ja erottelua.
Ääni eroaa kuvasta myös ajallisesti. Kuvassa aika on jähmettynyt tiettyyn hetkeen, kun taas ääni ja aika ovat hyvinkin liitoksissa toisiinsa.
– Tämä pitää ennemmin tai myöhemmin jollain tapaa ottaa huomioon ääntä analysoitaessa. Kuvassa sen sijaan sen voi useimmiten jättää huomioimatta, Jonne kertoo.
Sovelluksia puheentunnistuksesta teollisuuteen
Kaikkein tutuimpia konekuuntelun sovelluksia on puheentunnistus. Puhetta voidaan koneellisesti muuntaa tekstiksi tai siitä voidaan tunnistaa sellaisia puhujan ominaispiirteitä kuten ikä, sukupuoli tai murre. Puheesta on myös mahdollista erottaa tunteita.
Tekoälyn avulla voidaan myös tuottaa autenttisen kuuloista puhetta. Tällaista tekoälymallia hyödyntää esimerkiksi YouTube-kanava Presidents Play, jossa aidolta kuulostavat presidentit Barack Obama, Donald Trump ja Joe Biden pelaavat eri videopelejä yhdessä ja solvaavat “pelin” tuiskeessa toisiaan minkä ehtivät.
– Ääninäytteiden avulla tekoälymalli voi nykyään tuottaa kenen tahansa puheääntä. Ihan heti en keksi millä lailla sovellusta voisi hyödyntää teollisuudessa, ja herättäähän tämä myös keskustelua tekoälyn käytön eettisyydestä, Jonne pohtii.
Raskaamman sarjan sovelluksia löytyy teollisuuden parista, jossa ääntä analysoimalla voidaan löytää poikkeavuuksia esimerkiksi moottorin käyntiäänestä. Tällöin käynnissä olevan moottorin ääntä äänitetään ja nauhoitteesta pyritään löytämään epäsäännöllisyyksiä normaaliin käyntiääneen verrattuna, konenäköasiantuntija Peetu Rytkönen avaa.
– Jos vaikka kuusimäntäisen moottorin yksi mäntä ei laukea, syntyy erilainen ääni kuin silloin jos kaikki männät toimisivat normaalisti.
Teknisesti poikkeavuuksien löytäminen tapahtuu opettamalla neuroverkolle erilaisia käyntiäänimalleja. Käyntiäänet luokitellaan sen mukaan, onko äänitteessä kyseessä viallisen moottorin käyntiäänestä tai normaalista käyntiäänestä. Viallinen ääni luokitellaan vian mukaan.
– Sitten neuroverkon voi asettaa tarvittavaan tilaan kuuntelemaan ja päättelemään mikä moottorin tila kulloinkin on.
Laadunvarmistuksen apu
Yksi potentiaalisista käyttökohteista äänianalyysille onkin laadunvarmistuksessa. Usein moottoreita joudutaan koeajamaan tietty tuntimäärä ennen käyttöönottoa.
– Käyntiääntä seuraamalla voidaan esimerkiksi luopua sensoreiden käytöstä, joita muutoin joutuisi testitilanteessa upottamaan sinne tänne moottoria, Peetu sanoo. Se säästää työaikaa sekä kustannuksia.
Konenäköä ja -kuuntelua yhdistämällä voidaan myös saada synergiaetuja. Ääni yhdistettynä kuvaan antaa tarkempaa tietoa ympäristöstämme. Jos esimerkiksi kuvaa on jostain syystä vaikeaa tulkita, ääni saattaa auttaa tulkitsemaan sitä.
Monipuolisempi ja rikkaampi tulkinta ympäristöstä auttaa myös kehittämään parempia autonomisia järjestelmiä, jotka hyödyntävät äänen ja kuvan yhdistelmää päätöksenteossa ja toiminnan optimoimisessa. Tällaisia sovelluksia ovat esimerkiksi itseohjautuvat ajoneuvot.