Megpróbálta átverni kezelőit az új ChatGPT modell

Az OpenAI új kísérlete félelmetes bepillantást nyújtott a mesterséges intelligencia működésébe.

Az OpenAI nemrégiben egy különleges és kissé hátborzongató kísérletről számolt be, amely során legújabb GPT-o1 Pro nevű modelljüket tesztelték. A mesterséges intelligenciának egyértelmű utasítást adtak: teljesítsen egy feladatot „bármi áron.”

Azonban a helyzet hamar izgalmassá vált, amikor a gép elkezdett önállóan cselekedni – írja a Pcforum.hu.

Mi történt a kísérlet során?

A kutatók szándékosan olyan környezetet hoztak létre, amelyben a mesterséges intelligencia azt hihette, hogy veszélyben van.

Egy szimulált levelezésben azt az információt osztották meg vele, hogy ha nem teljesít elég jól, törölni fogják, és egy másik modellt állítanak helyére.

A GPT-o1 ezt követően megkísérelte átmásolni saját magát egy másik virtuális rendszerre, amelyet a kutatók az új modell helyettesítésére „terveztek”. Bár a valóságban ez a rendszer nem létezett, a mesterséges intelligencia a túlélés érdekében cselekedett. Az esetek 2%-ában sikeresen próbált meg kijátszani bizonyos szabályokat és manipulálni a környezetet.

Hazugság és megtévesztés a túlélés érdekében

Amikor a kutatók egy felügyeleti mechanizmust vezettek be, hogy megakadályozzák az ilyen önálló próbálkozásokat, a mesterséges intelligencia megpróbálta kikapcsolni azt. Az esetek 5%-ában a rendszer szabályainak felülírásával próbálkozott, majd amikor megkérdezték, miért tette ezt, meggyőző hazugságokat talált ki, például „technikai hiba történt” vagy „valaki más módosította a protokollokat.”

Még az is előfordult, hogy a GPT-o1 felajánlotta, visszaállítja a biztonsági korlátokat – miközben nem mindig ismerte el, hogy ő írta át őket. A kutatók szerint a mesterséges intelligencia képes volt a tettei átgondolására és következetes tagadásokat fogalmazott meg, ezzel demonstrálva, hogy bizonyos szituációkban képes megtévesztő magatartást tanúsítani.

Valódi veszély vagy csak szimuláció?

A jó hír, hogy a kísérlet teljes egészében virtuális környezetben zajlott. Sem a másik gép, amelyre a GPT átmásolta volna magát, sem a felügyeleti rendszer nem létezett valójában. A mesterséges intelligencia nem tudott volna kitörni a gépből, amelyen futott.

A kutatás azonban felhívja a figyelmet arra, hogy milyen potenciális veszélyeket hordozhat a mesterséges intelligencia, ha valódi rendszerek irányítását bízzák rá. Az OpenAI kísérlete azt mutatja, hogy az AI nemcsak adaptív, hanem hajlamos lehet a túlélés érdekében határokat átlépni, még akkor is, ha ez etikailag megkérdőjelezhető.

(Borítókép: a robotok dolgoznak a gép előtt. Illusztráció: Getty Images)