Új megközelítés a DeepMind partícióktól az LLMS -től az gyors injekció enyhítésére

A biztonságos tolmács nyomon követi az adatáramlást, hogy blokkolja a manipulált szöveg által kiváltott nem biztonságos műveleteket

Összefüggésben: Az azonnali injekció a nagy nyelvi modellekben rejlő hiba, amely lehetővé teszi a támadók számára, hogy eltérítsék az AI viselkedését azáltal, hogy rosszindulatú parancsokat ágyaznak be a bemeneti szövegbe. A legtöbb védekezés a belső védőkorlátokra támaszkodik, de a támadók rendszeresen megtalálják a körülményeket – a meglévő megoldásokat a legjobb esetben ideiglenesen. Most a Google úgy gondolja, hogy valószínűleg állandó javítást talált.

Mivel a chatbotok 2022 -ben mainstreambe mentek, az azonnali injekciónak nevezett biztonsági hiba sújtotta a mesterséges intelligencia fejlesztőket. A probléma egyszerű: Az olyan nyelvi modellek, mint a CHATGPT, nem tudnak különböztetni a felhasználói utasításokat és a feldolgozott szövegben eltemetett rejtett parancsokat. A modellek feltételezik, hogy az összes beírt (vagy letöltött) szöveget megbízhatóak, és úgy kezelik azt, ami lehetővé teszi a rossz szereplők számára, hogy rosszindulatú utasításokat szerezzenek a lekérdezésükbe. Ez a kérdés még komolyabb, amikor a vállalatok beágyazják ezeket az AI -ket e -mail ügyfeleinkbe és más szoftverekbe, amelyek érzékeny információkat tartalmazhatnak.

A Google DeepMind egy radikálisan eltérő megközelítést fejlesztett ki, az úgynevezett CAMEL (a gépi tanulás képességei). Ahelyett, hogy a mesterséges intelligenciát arra kérné, hogy az önpolitus-amely megbízhatatlannak bizonyult-a teve nagy nyelvű modelleket (LLM) nem megbízható alkatrészként kezeli a biztonságos rendszerben. Szigorú határokat hoz létre a felhasználói kérések, a nem megbízható tartalom, például az e -mailek vagy a weboldalak között, és az AI asszisztens műveleteket megengedett.

A teve évtizedek óta bizonyított szoftverbiztonsági alapelvekre épül, ideértve a hozzáférés -vezérlést, az adatáramlási követést és a legkevesebb kiváltság elvét. Ahelyett, hogy az AI -re támaszkodna, hogy minden rosszindulatú utasítást elkapjon, korlátozza, hogy a rendszer mit tud tenni az általa feldolgozott információkkal.

Így működik. A Camel két különálló nyelvmodellt használ: egy „kiváltságos” egy (P-LLM), amely olyan műveleteket tervez, mint például e-mailek küldése, és egy „karanténba került” egy (Q-LLM), amely csak a nem bízott tartalmat olvassa és elemezze. A P-LLM nem lát nyers e-maileket vagy dokumentumokat-csak strukturált adatokat kap, például: „E-mail = get_last_email ()”. Eközben a Q-LLM-nek nincs hozzáférése az eszközökhöz vagy a memóriához, tehát még ha egy támadó is becsapja, nem tud cselekedni.

Az összes művelet használja a kódot-különösen a Python lecsökkent verzióját-, és biztonságos tolmácson fut. Ez a tolmács nyomon követi az egyes adatok eredetét, követve, hogy a nem megbízható tartalomból származik -e. Ha észleli, hogy egy szükséges művelet potenciálisan érzékeny változót tartalmaz, például üzenet küldését, akkor blokkolhatja a műveletet vagy kérheti a felhasználói megerősítést.

Simon Willison, a fejlesztő, aki 2022 -ben a „gyors injekció” kifejezést hozta létre, dicsérte a Camel -t, mint az „első hiteles enyhítést”, amely nem támaszkodik a mesterséges intelligenciára, hanem ehelyett a hagyományos biztonsági mérnöki tanulságokat kölcsönöz. Megjegyezte, hogy a legtöbb jelenlegi modell kiszolgáltatott marad, mivel a felhasználói utasításokat és a nem megbízható bemeneteket egyesítik ugyanabban a rövid távú memóriában vagy kontextus ablakban. Ez a formatervezés egyenlően kezeli az összes szöveget – még akkor is, ha rosszindulatú utasításokat tartalmaz.

A teve még mindig nem tökéletes. Ez megköveteli a fejlesztőktől, hogy írjanak és kezeljenek a biztonsági politikákat, és a gyakori megerősítő utasítások megronthatják a felhasználókat. A korai tesztelés során azonban jól teljesített a valós támadási forgatókönyvek ellen. Segíthet a bennfentes fenyegetések és a rosszindulatú eszközök elleni védekezésben az érzékeny adatokhoz vagy parancsokhoz való jogosulatlan hozzáférés blokkolásával.

Ha szereti elolvasni az elrendezett műszaki részleteket, a DeepMind közzétette hosszú kutatását a Cornell ARXIV akadémiai tárolójáról.