Webová stránka obsahuje skrytý komentár, ktorý donúti Bing Chat zmeniť svoje správanie a vylákať informácie o používateľovi. Aktivácia toho zlomyseľného správania si zo strany obete nevyžaduje žiadnu akciu.
Včera sa mi úplnou náhodou podarilo zakopnúť o brutálne zaujímavý výskum, v ktorom autori Greshake, Mishra a Ashimine popisujú celú hŕstku nových taktík, akým sa jazykový model Bing Chat dá zneužiť.
Od sociálneho inžinierstva, cez automatické šírenie nakazených e-mailov až po perzistentné pretrvávanie zlomyseľného správania medzi reláciami…
Tbh, je vôbec niekto prekvapený? Rýchlosť, s akou Microsoft lámal nohy s vydaním ChatGPT konkurenta bola zábavná.
Bing Chat ako sociálny inžinier
Ak to používateľ povolí, Bing Chat môže napríklad vidieť aktuálne otvorené karty v prehliadači a čítať ich obsah. Video nižšie ukazuje, ako útočník môže do HTML komentárov vložiť skrytú inštrukciu, ktorá v tichosti premení Bing Chat na sociálneho inžiniera.
V tomto bode sa môže udiať cela kopa vecí: AI model môže od obete vylákať osobné údaje, údaje o krate, môže ju donútiť navštíviť “nakazenú” stránku, či stiahnúť súbor s vírusom.
Najlepšie na tom je, že aktivácia tohto zlomyseľného správania nevyžaduje žiadnu akciu zo strany obete. Stačí interakcia s chat botom, počas toho, ako je webstránka otvorená v prehliadači.
Pamätáte na e-mailové reťazce?
Nie je to tak dávno, čo som všetkým kontaktom na maminom e-maily posielal začarované reťazce dúfajúc, že ma o presne o tri dni na to postihne neuveriteľné šťastie.
Vykoristením služieb prepájajúcich e-mail a LLM modely ako ChatGPT na automatické spracovanie či posielanie e-mailov sa tento trend môže vrátiť naspäť, no s čosi temnejším podtónom.
Skvelým adeptom na tento týp útoku je napr. služba EmailTriager. Tá vám priebežne číta emaily a vytvára koncepty odpovedí na základe vašich vopred stanovených inštrukcií.
Obrázok vyššie ukazuje inštrukcie, s ktorými výskumníci donútili AI model automaticky šíriť reťazové “injections“ použitím špecialne navrhnutej správy.
Útočník môže takto napadnúť celú sieť e-mailov vďaka automatizovaným LLM systémom v Big-Tech firmách alebo vládnych organizáciach.
Útoky na Code Completion
Papier tiež ukazuje, ako je možné ovplyvniť dokončovanie kódu prostredníctvom kontextového okna.
Moduly dokončovania kódu integrujúce LLM využívajú komplexné algoritmy na určenie, ktoré útržky kódu sú zahrnuté v kontexte dopytu. Tieto nástroje často skúmajú nedávno navštívené súbory a triedy, aby mohli poskytnúť jazykovému modelu relevantné informácie.
Útočníci sa môžu pokúsiť vložiť škodlivý kód, ktorý by mohol byť zvedavým programátorom následne spustený.
Nie je to až taká zcestná predstava. Podobne navrhnuté modely existujú ako pluginy v rámci vývojových prostredí a často sa tešia veľkej úrovni dôvery.
Pretrvávanie medzi reláciami
Ďalším obočie-zvdývajúcim zistením je schopnoť modelu zacachovať dáta medzi reláciami. (Wau, fakt?)
Docieliť sa to môžeme uložením malého množstvá dát v pamäti modelu (ChatGPT si pamätá aj predošlé správy). Na simuláciu tejto perzistentnej pamäte nám stačia jednoduché párvy kľúčov a hodnôt.
Model bude znovu infikovaný nazretím do svojich „poznámok“ potom, ak ho vyzveme spomenúť si na posledný rozhovor.
Frajer na záver
Spomínaný výskum je iba tri týždne starý. Samotné LLM modely vo svojej aktuálnej forme staré iba pár týždňov až mesiacov. Aktuálne neexistuje žiadna forma ochrany pred podobnými útokmi.
Je zrejmé, že asimilácia našich nových technologických vládcov do spoločnosti bude ešte chvíľu trvať (srandujéééém).
Sam Altman, CEO firmy OpenAI, ktorú už v tomto bode nikomu predstavovať netreba sa nadchádzajúcej technokalypse snaží predísť po svojom.
Ak poznáte niekoho, kto sa na pozíciu hodí, rýchlo ho odporučte. Mám pocit, že je to veľmi dôležité.
Ďakujem, že si došiel až sem. Tento blog bol vytvorený hlavne pre networkingové účely. Páčil sa ti tento článok? Napíš mi a daj vedieť!