Könnyen lehet, hogy a Google új mesterséges intelligenciája, az AudioPaLM forradalmasítja a hangszintetizációt és a szinkronizálást. A Meta, a Facebookot és Instagramot egyesítő cég néhány hónappal ezelőtt bejelentette, hogy egy új mesterséges intelligenciát fejlesztett, amely mindössze 2 másodperces minta alapján képes szintetizálni egy adott beszélő hangját. A Mark Zuckerberg vezette cég azonban nem hajlandó megosztani a Voicebox névre keresztelt technológiát a nyilvánossággal, mert túl veszélyesnek ítélte meg azt.
Nemrég a Google is rákapcsolt: a The Decoder beszámolója szerint a vállalat nemrég leleplezte a saját hasonló technológiáját, amely forradalmi változásokat hozhat a szinkronizálás területén. A Google saját nyelvi modelljére, a PaLM-2-re épülő AudioPaLM egy kissé hosszabb, legalább 3 másodperces hangmintát igényel a beszélők hangjának utánzásához. Cserébe írott szöveget is generál az elhangzottakból, és a szöveget más nyelvekre is lefordítja. Ezáltal az algoritmus képes szinkronizált fordításokat is létrehozni a beszélő hangján.
A fordítás az audiofájlokból készített szöveges átiratokban is elérhető, a Google szerint pedig az AudioPaLM beszédfelismerésre is tökéletesen alkalmas. A technológia számos területen felhasználható, a többnyelvű hangalapú asszisztensektől az automatizált átíró alkalmazásokig.
„A modell egyedülálló módon képes megőrizni a beszélő identitását és intonációját a fordításban, még a képzés során nem látott nyelvek és nyelvi kombinációk esetében is, ami rendkívül hasznos a többnyelvű kommunikációs alkalmazások számára" – írja a Google a technológiáról készült tanulmányban, amely a GitHub-on érhető el.
Nem ez az egyetlen hasonló technológia, amelyet a Google fejleszt. A cég leányvállalata, a YouTube nemrég bejelentette, hogy mesterséges intelligenciával generált szinkronokat vezet be a platformján. Az újítás a nemrégiben felvásárolt Aloud startup által kidolgozott algoritmuson alapul.
Úgy tűnik, a mesterséges intelligencia terén folyó verseny egyre erősebbé válik a technológiai óriások között. Az AudioPaLM mindenképpen izgalmas és ígéretes fejlesztés, amely az emberi hang utánzását és a nyelvfordítást egészen új szintre emelheti. Csak az idő fogja megmutatni, hogy ez milyen mértékben változtatja meg a szinkronizálást és a többnyelvű kommunikációt az egyre inkább összekapcsolt világunkban.
(Pc Word)
(Borítókép: Mesterséges intelligencia. Illusztráció: Getty Images)