Így lehet felismerni az AI által generált hangokat a szakértő szerint

Egyre nehezebb megkülönböztetni az AI által generált hangokat az emberiektől, de a szakértők szerint az intonációs hibák, a légzés és a túl tökéletes hangzás segíthet az azonosításban.

Manapság az AI technológia lenyűgöző szintre jutott, különösen a hanggenerálás területén. A mesterséges intelligenciával működő beszédszintetizátorok már nemcsak folyékonyan beszélnek, hanem képesek érzelmeket közvetíteni, sőt klónozni is valódi emberek hangját – írja a BBC.

De vajon van-e valami egyedi az emberi hangban, ami alapján még felismerhetjük, ha egy robot próbál minket megtéveszteni?

Az AI által generált hangok egyre élethűbbek

Az AI-alapú hangklónozó eszközöket ma már nemcsak szórakoztatásra használják, hanem csalásokhoz is. Képzeljünk el egy mesterséges hangot, amely hitelesen utánozza valakinek a szavát, és hamis telefonhívásokkal próbál pénzt kicsalni. Ugyanakkor az AI hangtechnológia pozitív oldalai is kiemelkedőek. A legmodernebb chatbotok, például a ChatGPT már képesek természetes intonációval, érzelmekkel és hangsúlyozással beszélni, akár több nyelven is.

Egy bemutató során az AI például gond nélkül telefonon rendelt epret egy boltban, tökéletes emberi hangot utánozva. Ez a technológia lenyűgöző, de veszélyeket is rejt magában, hiszen egyre nehezebb megkülönböztetni a mesterséges hangokat az emberiektől.

Mitől különleges az emberi hang?

Jonathan Harrington, a Müncheni Egyetem professzora, aki évtizedek óta tanulmányozza a beszédet, elmondta, hogy bár az AI már nagyon élethű hangokat képes létrehozni, még mindig vannak árulkodó jelek.

Az emberek beszédében a hangsúlyozás, az intonáció és a természetes hibák különböztetik meg a gépi hangoktól

– magyarázta. Például egy emberi hang képes a beszélgetés kontextusának megfelelően hangsúlyozni. Ha valaki megkérdezi, hogy „Marianna készítette a lekvárt?”, az emberi válaszban a hangsúly a „készült” szóra esik, jelezve a kérdésre adott választ. Az AI ezt a finomságot sokszor még nem érti meg.

Hogyan lehet észrevenni a mesterséges hangokat?

A szakértők szerint az emberi és mesterséges hangok megkülönböztetése a következő jelek alapján történhet:

Túl tökéletes hangzás: ha a beszédben nincsenek hibák, botlások vagy természetes szünetek, az AI lehetősége merül fel.
Szabálytalan légzés: az AI által generált hangok gyakran túl szabályosan lélegeznek, vagy épp teljesen hiányzik belőlük ez a természetes elem.
Intonációs hibák: az AI nehezen alkalmazkodik a párbeszéd érzelmi kontextusához, és a hangsúlyozásai sokszor nem követik a logikát.

Egyre kifinomultabb csalások

A mesterséges intelligencia fejlődése új szintre emeli a csalások veszélyét. A McAfee kiberbiztonsági cég szerint az AI hangklónozók már képesek hitelkártya-társaságokat is megtéveszteni, és hamis hangüzenetekkel próbálnak személyes adatokat szerezni. Egy másik esetben egy iskolaigazgatót ért fenyegetés, miután a nevében készült egy hamis hangfelvétel.

Egy poszt-reális társadalomban élünk, ahol az AI már képes megszemélyesíteni barátokat, családtagokat és vezetőket

– mondta Pete Nicoletti, egy vezető kiberbiztonsági szakértő.

Hogyan védekezhetünk?

A szakértők szerint érdemes személyes jelszavakat kialakítani, amelyeket csak a közvetlen környezetünk ismer, és szükség esetén ezeket használni a hitelesség ellenőrzésére. Ha gyanús telefonhívást kapunk, mindig próbáljuk visszahívni a hivatalos számon keresztül.

A mesterséges intelligencia által generált beszéd még nem tökéletes, de gyorsan fejlődik. Az emberek számára a legnagyobb kihívás az lesz, hogy miként alkalmazkodjanak ehhez az új, sokszor zavaros technológiai valósághoz.

(Borítókép: 3D grafikával megjelenített beszélő robot. Illusztráció: Getty Images)