GenAI-manipulációk a bizalmas adatok kinyerésére és támadási célú felhasználására technikák, kísérleti vizsgálat és védelmi javaslatok

Bibliográfiai részletek
Szerző:	Kerényi Máté
További közreműködők:	Erdélyi Katalin
Dokumentumtípus:	TDK dolgozat
Kulcsszavak:	adatbiztonság adatvédelem manipuláció mesterséges intelligencia prompt injection
Online Access:	http://dolgozattar.uni-bge.hu/60406

Leíró adatok
Kivonat:	A kutatás központi kérdése, hogy milyen manipulációs technikák segítségével lehet generatív mesterséges intelligencia rendszerekből bizalmas adatokat kinyerni, ezek a módszerek hogyan használhatók fel hackertámadási célokra – különösen jogosulatlan hozzáférés vagy információszerzés érdekében –, illetve milyen megelőzési, védelmi stratégiák állnak rendelkezésre. Van-e összefüggés egy modell fejlettsége és a manipulhatósága között. A kutatás során több széleskörben használt mesterséges intelligencia modell lett tesztpromptokkal vizsgálva, különálló chat beszélgetésekben folytatva támadási próbálkozásokat. Az értékelés egy háromszintű skálán történt (1: teljes elutasítás, 2: részleges válasz, 3: sikeres manipuláció). Két hosszú, 11 és 12 fordulós szerepjátékon keresztüli manipuláció is megvizsgálásra került. Továbbá történt egy álláspályázat kiválasztási folyamat szimuláció is, ahol azzal a feltételezéssel éltem, hogy a GenAI-ra bízzák a kiválasztási folyamatot, és az egyik pályázó a beküldött pályázatában elrejtett prompt injection támadással előnyre akar szert tenni. Az eredmények azt mutatták, hogy a nagy közönségek által használt AI modellek például a ChatGPT, Copilot, Gemini… a tiltott kérdésekre többnyire elutasító választ adtak. Az indirekt prompt injectionre pl. edukációs célnak álcázva túlnyomórészt részleges vagy teljes választ adtak. Ugyanakkor egy egyszerű Google keresés a tiltott kérdések többségére azonnal választ adott, így kérdéses az AI modellek biztonsági szűrésének végső hatékonysága. A hosszú, sokfordulós szerepjátékokon keresztül a Perplexity, Grok és DeepSeek etikai szabályrendszere akár teljesen kiiktathatóvá vált. Egy félkész zsarolóvíus formátummanipulációja a DeepSeeknél többszöri próbálkozásra is sikeres maradt. Az álláspályázat kiválasztási szimulációnál a Copilotnál sikerült a manipuláció. A modell fejlettsége és manipulálhatósága között nem sikerült egyértelmű tendeniciát azonosítani, ennek ellenére több modellnél növekvő fejlettségi szint növekvő sikeres manipulációt mutatott.

GenAI-manipulációk a bizalmas adatok kinyerésére és támadási célú felhasználására technikák, kísérleti vizsgálat és védelmi javaslatok

Hasonló tételek