Csak pár másodperc kell és a Google AI már az ön hangján beszél

A Meta, a Facebookot és Instagramot összefogó tech óriás néhány hete bejelentette, hogy mesterséges intelligenciával készült hangszintetizátort fejlesztett ki, amelynek mindössze 2 másodperces hangmintára van szüksége. Most a Google is előrukkolt a saját technológiájával, az AudioPaLM-mal, amely szinkronizálásra is alkalmas.

Könnyen lehet, hogy a Google új mesterséges intelligenciája, az AudioPaLM forradalmasítja a hangszintetizációt és a szinkronizálást. A Meta, a Facebookot és Instagramot egyesítő cég néhány hónappal ezelőtt bejelentette, hogy egy új mesterséges intelligenciát fejlesztett, amely mindössze 2 másodperces minta alapján képes szintetizálni egy adott beszélő hangját. A Mark Zuckerberg vezette cég azonban nem hajlandó megosztani a Voicebox névre keresztelt technológiát a nyilvánossággal, mert túl veszélyesnek ítélte meg azt.

(Fotó: Luis Alvarez / Getty Images Hungary)

Nemrég a Google is rákapcsolt: a The Decoder beszámolója szerint a vállalat nemrég leleplezte a saját hasonló technológiáját, amely forradalmi változásokat hozhat a szinkronizálás területén. A Google saját nyelvi modelljére, a PaLM-2-re épülő AudioPaLM egy kissé hosszabb, legalább 3 másodperces hangmintát igényel a beszélők hangjának utánzásához. Cserébe írott szöveget is generál az elhangzottakból, és a szöveget más nyelvekre is lefordítja. Ezáltal az algoritmus képes szinkronizált fordításokat is létrehozni a beszélő hangján.

A fordítás az audiofájlokból készített szöveges átiratokban is elérhető, a Google szerint pedig az AudioPaLM beszédfelismerésre is tökéletesen alkalmas. A technológia számos területen felhasználható, a többnyelvű hangalapú asszisztensektől az automatizált átíró alkalmazásokig.

„A modell egyedülálló módon képes megőrizni a beszélő identitását és intonációját a fordításban, még a képzés során nem látott nyelvek és nyelvi kombinációk esetében is, ami rendkívül hasznos a többnyelvű kommunikációs alkalmazások számára" – írja a Google a technológiáról készült tanulmányban, amely a GitHub-on érhető el.

Nem ez az egyetlen hasonló technológia, amelyet a Google fejleszt. A cég leányvállalata, a YouTube nemrég bejelentette, hogy mesterséges intelligenciával generált szinkronokat vezet be a platformján. Az újítás a nemrégiben felvásárolt Aloud startup által kidolgozott algoritmuson alapul.

(Fotó: Jonathan Kitchen / Getty Images Hungary)

Úgy tűnik, a mesterséges intelligencia terén folyó verseny egyre erősebbé válik a technológiai óriások között. Az AudioPaLM mindenképpen izgalmas és ígéretes fejlesztés, amely az emberi hang utánzását és a nyelvfordítást egészen új szintre emelheti. Csak az idő fogja megmutatni, hogy ez milyen mértékben változtatja meg a szinkronizálást és a többnyelvű kommunikációt az egyre inkább összekapcsolt világunkban.

(Pc Word)

(Borítókép: Mesterséges intelligencia. Illusztráció: Getty Images)