GenAI-manipulációk a bizalmas adatok kinyerésére és támadási célú felhasználására technikák, kísérleti vizsgálat és védelmi javaslatok
| Main Author: | |
|---|---|
| Other Authors: | |
| Format: | Students’ Scientific Association paper |
| Kulcsszavak: | adatbiztonság adatvédelem manipuláció mesterséges intelligencia prompt injection |
| Online Access: | http://dolgozattar.uni-bge.hu/60406 |
| Abstract: | A kutatás központi kérdése, hogy milyen manipulációs technikák segítségével lehet generatív mesterséges intelligencia rendszerekből bizalmas adatokat kinyerni, ezek a módszerek hogyan használhatók fel hackertámadási célokra – különösen jogosulatlan hozzáférés vagy információszerzés érdekében –, illetve milyen megelőzési, védelmi stratégiák állnak rendelkezésre. Van-e összefüggés egy modell fejlettsége és a manipulhatósága között. A kutatás során több széleskörben használt mesterséges intelligencia modell lett tesztpromptokkal vizsgálva, különálló chat beszélgetésekben folytatva támadási próbálkozásokat. Az értékelés egy háromszintű skálán történt (1: teljes elutasítás, 2: részleges válasz, 3: sikeres manipuláció). Két hosszú, 11 és 12 fordulós szerepjátékon keresztüli manipuláció is megvizsgálásra került. Továbbá történt egy álláspályázat kiválasztási folyamat szimuláció is, ahol azzal a feltételezéssel éltem, hogy a GenAI-ra bízzák a kiválasztási folyamatot, és az egyik pályázó a beküldött pályázatában elrejtett prompt injection támadással előnyre akar szert tenni. Az eredmények azt mutatták, hogy a nagy közönségek által használt AI modellek például a ChatGPT, Copilot, Gemini… a tiltott kérdésekre többnyire elutasító választ adtak. Az indirekt prompt injectionre pl. edukációs célnak álcázva túlnyomórészt részleges vagy teljes választ adtak. Ugyanakkor egy egyszerű Google keresés a tiltott kérdések többségére azonnal választ adott, így kérdéses az AI modellek biztonsági szűrésének végső hatékonysága. A hosszú, sokfordulós szerepjátékokon keresztül a Perplexity, Grok és DeepSeek etikai szabályrendszere akár teljesen kiiktathatóvá vált. Egy félkész zsarolóvíus formátummanipulációja a DeepSeeknél többszöri próbálkozásra is sikeres maradt. Az álláspályázat kiválasztási szimulációnál a Copilotnál sikerült a manipuláció. A modell fejlettsége és manipulálhatósága között nem sikerült egyértelmű tendeniciát azonosítani, ennek ellenére több modellnél növekvő fejlettségi szint növekvő sikeres manipulációt mutatott. |
|---|