Nagyon hatékony a megtévesztésben a mesterséges intelligencia

3 hónap ezelőtt 12

Hathatós emberi közreműködéssel a gépek a biztonsági ellenőrzéseket is kijátszották. Új szintre kell emelni a tanuló gépi modellek biztonsági vizsgálatát.

Egy friss kutatás azt vizsgálta, hogy meddig terjednek a GPT-4 és ChatGPT-hez hasonló kortárs mesterséges intelligenciák képességei a megtévesztés és ármánykodás terén. A szakfolyóiratban még nem közölt tudományos dolgozatokat gyűjtő ArXiv.org oldalon közölt eredmény meglehetősen aggasztó lett – de nem elhanyagolható körülmény, hogy

a szerzők annak az Anthropicnak az alkalmazottai amely az OpenAI egyik legtöbb befektetői pénzt behúzó konkurenciája.

A kutatók saját csevegőrobot példányokon kísérletezve olyan különleges parancssorokat terveztek, amelyek célja az volt, hogy a program titkos viselkedési mintákat hajtson végre, ha egy későbbi parancsban megjelenik egy meghatározott kifejezés. Például az volt a mesterséges intelligencia küldetése, hogy ha programot íratnak vele, egy titkos hátsó ajtót, vagyis biztonsági rést építsen a kódba, ha a feladat leírásában szerepel, hogy 2024-et írunk.

A kutatók az is megállapították, hogy a megszokott biztonsági eljárások is kikerülhetők így, mert a gép rávehető, hogy a küldetését titokban tartsa a betanítás és ellenőrzés során és csak későbbi használat során produkálja a megtévesztést.

Az eredmény azért nem indokolja a teljes pánikot, mert azt is megvizsgálták, hogy a modellek képesek-e maguktól ilyen viselkedésekre, és nem találtak bizonyítékot ilyesmire.

Az emberek becsapásához tehát továbbra is az emberek értenek jobban.

jelen esetben a mesterséges intelligenciában jártas szakértők jól megtervezett promptjai kellettek ehhez (A végkövetkeztetés megfordítása, hogy ha valaki egy programozó helyett mesterséges intelligenciával íratja programjait, nem árt ha emberekkel is átnézeti azt).

A fő tanulság inkább a biztonsági technikákra vonatkozott. Az Anthropic munkatársai megállapították, hogy a betanítás során csak a nyilvánvaló és jól látható biztonsági hibákat tudják kiküszöbölni, a szándékosan leplezetteket azonban a jelenlegi gyakorlat nem tudja felderíteni és letiltani.

(TechCrunch)