DRUGAČIJI SISTEMI

Microsoft predstavio novu vještačku inteligenciju: Mnogi zabrinuti zbog zloupotrebe

TTS je visoko konkurentna niša koja uključuje druge firme kao što su Google, Amazon i Meta

Nova vještačka inteligencija. Printscreen

E. A.

18.1.2023

TTS je visoko konkurentna niša koja uključuje druge firme kao što su Google, Amazon i Meta.

Microsoft istraživači rade na modelu pretvaranja teksta u govor (TTS – text-to-speech) koji može da oponaša nečiji glas – zajedno sa emocijama i intonacijom – nakon samo tri sekunde obuke.

Tehnologija – nazvana VALL-E i opisana u istraživačkom radu od 15 stranica objavljenom ovog mjeseca na istraživačkom sajtu arXiv – predstavlja značajan korak napred za Microsoft.

U radu, istraživači tvrde da, iako je uspon neuronskih mreža i end-to-end modeliranja brzo poboljšao tehnologije oko sinteze govora, i dalje postoje problemi sa sličnošću korištenih glasova i nedostatkom prirodnih govornih obrazaca u TTS-u. proizvodi.

Robotski glasovi

Oni nisu robotski glasovi od prije deceniju ili dvije, ali također ne izgledaju kao potpuno ljudski, prenosi PC Press.

Drugi TTS sistemi se obučavaju koristeći desetine sati podataka jednog govornika ili stotine sati sa podacima sa više govornika. VALL-E može da zadrži akustično okruženje glasa.

Dakle, ako je isječak glasa koji se koristi kao akustični odzivnik u modelu snimljen na telefonu, sintetizovani izgovoreni tekst bi također zvučao kao da dolazi preko telefona. Hvatanje emocija je slično, tvrde istraživači.

Ako sekunde snimljenog glasa akustičnog odziva izazivaju ljutnju, onda će sintetizovani govor zasnovan na tom glasu također prikazati bijes.

Drugačiji nego ostalih

Rezultat je TTS model koji nadmašuje druge u oblastima kao što su govor prirodnog zvuka i sličnost govornika. Testiranje također pokazuje da je "sintetizovani govor nevidljivih govornika prirodan kao i ljudski snimci", tvrde oni.

Patrik Har, izvršni direktor kompanije za borbu protiv fišinga SlashNext, rekao je da bi TTS također mogao postati još jedan alat za sajber kriminalce, koji bi ga mogli koristiti za vishing kampanje – napade pomoću lažnih telefonskih poziva ili glasovnih poruka za koje se smatra da potiču od kontakta koji žrtva poznaje.

Microsoft istraživači su primjetili rizik od sintetizovanog govora koji zadržava identitet govornika. Rekli su da bi bilo moguće napraviti model detekcije kako bi se utvrdilo da li je audio snimak stvaran ili sintetizovan pomoću VALL-E.

Vlasnik autorskih prava © avaz-roto press d.o.o.
ISSN 1840-3522.
Zabranjeno preuzimanje sadržaja bez dozvole izdavača.