Mainos
Ihmiskunta on ottanut jälleen yhden askeleen kohti väistämätöntä sotaa koneita vastaan (jonka tulemme lopulta luultavasti häviämään), kun Microsoftin tutkijaryhmä on luonut Vall-E:n, tekoälyn, joka pystyy tuottamaan korkealaatuisia ihmisäänen kopioita vain muutaman sekunnin ääniharjoittelulla.

Vall-E ei ole ensimmäinen tekoälyllä toimiva äänityökalu – esimerkiksi xVASynth on ollut käytössä jo pari vuotta – mutta Vall-E lupaa ylittää kaikki muut puhtaasti kyvyiltään.

Cornellin yliopistossa julkaistussa artikkelissa Vall-E:n tutkijat sanovat, että useimpia nykyisiä tekstistä puheeksi -järjestelmiä rajoittaa se, että ne tarvitsevat ”korkealaatuista puhdasta dataa” syntetisoidakseen laadukasta puhetta tarkasti.

Mainos

”Internetistä ryömitetty laajamittainen data ei pysty täyttämään vaatimusta, ja se johtaa aina suorituskyvyn heikkenemiseen”, tiedotteessa todetaan.

”Koska harjoitusdata on suhteellisen pieni, nykyiset TTS-järjestelmät kärsivät edelleen huonosta yleistyksestä. Puhujan samankaltaisuus ja puheen luonnollisuus heikkenevät dramaattisesti näkymättömien puhujien osalta nollakuvausskenaariossa.”

Zero-shot-skenaario” tarkoittaa tässä tapauksessa lähinnä tekoälyn kykyä luoda ääniä uudelleen ilman, että sitä on erikseen koulutettu niihin.

Vall-E:tä taas koulutetaan paljon suuremmalla ja monipuolisemmalla aineistolla: 60 000 tuntia englanninkielistä puhetta, joka on kerätty yli 7 000 eri puhujalta ja kaikki puheentunnistusohjelmiston transkriptoimia.

Tekoälylle syötetty data sisältää ”enemmän meluisaa puhetta ja epätarkkoja transkriptioita” kuin muiden tekstistä puheeksi -järjestelmien käyttämä data, mutta tutkijat uskovat, että pelkkä syötteen laajuus ja monimuotoisuus tekevät siitä paljon joustavamman, mukautuvamman ja – tämä on se tärkein – luonnollisemman kuin sen edeltäjät.

”Koetulokset osoittavat, että Vall-E päihittää merkittävästi uusimman nollakuvauksen TTS-järjestelmän puheen luonnollisuuden ja puhujan samankaltaisuuden suhteen”, todetaan julkaisussa, joka on täynnä numeroita, yhtälöitä, kaavioita ja muuta vastaavaa monimutkaisuutta.

”Lisäksi havaitsimme, että VALL-E pystyi säilyttämään puhujan tunteet ja akustisen kehotuksen akustisen ympäristön synteesissä.”

Voit itse asiassa kuulla Vall-E:n toiminnassa Githubissa, jossa tutkimusryhmä on jakanut lyhyen erittelyn siitä, miten se toimii, sekä kymmeniä näytteitä syötteistä ja tuotoksista.

Laatu vaihtelee; Jotkut äänet ovat selvästi robottiääniä, kun taas toiset kuulostavat melko inhimillisiltä. Mutta eräänlaisena ensikokeilun teknisenä demona se on vaikuttava.

Mitä tämä teknologia voikaan saavuttaa vuoden, kahden tai viiden kuluttua, kun järjestelmät kehittyvät ja äänikoulutustietokanta laajenee entisestään?

Siksi se on tietysti ongelma. Dall-E, tekoälytaidegeneraattori, kohtaa vastarintaa yksityisyyteen ja omistajuuteen liittyvien huolenaiheiden vuoksi, ja ChatGPT-botti on niin vakuuttava, että New Yorkin opetusministeriö kielsi sen äskettäin.

Vall-E:llä on potentiaalia olla vieläkin huolestuttavampi, koska sitä voidaan käyttää huijausmarkkinointipuheluissa tai deepfake-videoiden vahvistamiseen. Tämä saattaa kuulostaa hieman kädenvääntöä herättävältä, mutta nämä asiat eivät ole katoamassa, ja on elintärkeää, että tunnistamme ongelmat ja sääntelemme tekoälyjärjestelmien luomista ja käyttöä ennen kuin mahdolliset ongelmat muuttuvat todellisiksi (ja todella suuriksi) ongelmiksi.

Vall-E:n tutkimusryhmä käsitteli näitä ”laajempia vaikutuksia” artikkelinsa päätelmissä.

”Koska VALL-E voisi syntetisoida puhetta, joka säilyttää puhujan identiteetin, siihen voi liittyä mahdollisia riskejä mallin väärinkäytössä, kuten äänentunnistuksen väärentämisessä tai tietyn puhujan esittämisessä”, ryhmä kirjoitti.

”Tällaisten riskien vähentämiseksi on mahdollista rakentaa havaintomalli, jolla voidaan erottaa, onko äänileike syntetisoitu VALL-E:n toimesta. Otamme myös Microsoftin tekoälyperiaatteet käyttöön, kun kehitämme malleja edelleen.”

Jos tarvitset lisää todisteita siitä, että lennossa tapahtuva äänen matkiminen johtaa huonoihin lopputulemiin:

Mainos