Adatbányászati módszerek alkalmazása a kockázatelemzésben a Magyar Államkincstár Kifizető Ügynökségénél
Elmentve itt :
Szerző: | |
---|---|
További közreműködők: | |
Dokumentumtípus: | Diplomadolgozat |
Kulcsszavak: | adatbányászat gépi tanulás grádiens turbózás kockázatelemzés neurális hálózatok svm támasztóvektor-gép |
Online Access: | http://dolgozattar.uni-bge.hu/28999 |
MARC
LEADER | 00000nta a2200000 i 4500 | ||
---|---|---|---|
001 | dolg28999 | ||
005 | 20210301133913.0 | ||
008 | 210301suuuu hu om 000 hun d | ||
040 | |a BGE Dolgozattár Repozitórium |b hun | ||
041 | |a hu | ||
100 | 1 | |a Lakatos Áron | |
245 | 1 | 0 | |a Adatbányászati módszerek alkalmazása a kockázatelemzésben a Magyar Államkincstár Kifizető Ügynökségénél |c Lakatos Áron |h [elektronikus dokumentum] |
520 | 3 | |a Szakdolgozatom célja egyrészt az adatbányászat témakörének, valamint néhány, az esettanulmányban használt módszerének részletes bemutatása volt. Másrészt a Magyar Államkincstárnál végzett kockázatelemzéssel kapcsolatos munkámmal összefüggésben egy kutatást végeztem, melynek keretében különböző modellek teljesítményét szerettem volna megmérni és meghatározni, hogy mely modell bizonyul a leghatékonyabbnak a helyszíni ellenőrzésre történő kiválasztások során. A kutatásom során a SAPS, vagyis egységes területalapú támogatás keretében benyújtott igénylések adatait, valamint helyszíni ellenőrzési eredményeit használtam. Dolgozatom első részében bemutatásra kerül az adatbányászat fogalma, kapcsolódó tudományterületei, mint a gépi tanulás vagy az adatbázis technológiák. Ismertetem a feltáró-, illetve a előrejelző módszerek alapjait, valamint főbb módszereit röviden. A CRISP-DM adatbányászati módszertanon kívül dolgozatomban bemutatom a SEMMA módszertan lényegi elemeit is. Említésre kerül néhány statisztikai fogalom, illetve mérőszám, amelyek szoros kapcsolatban állnak, valamint segítik az adatbányászati elemzéseket. Az adatbányászati módszerek közül elsőként részletezem a lineáris- és logisztikus regressziót, majd az esettanulmányban használt módszerek kerülnek bemutatásra. Legelőször a neurális hálózatokkal foglalkozom, amelyek az emberi agy mechanizmusain alapuló eljárások. A következő módszer, amit alkalmaztam a grádiens turbózás. A grádiens turbózás módszer az együttes tanulási módszerek egy fajtája, melynek lényege, hogy több döntési fát épít fel szekvenciálisan. A folyamat előrehaladtával újonnan belépő modellek figyelembe veszik az előző modellek által elért hibaszintet is. Végül részletesen ismertetem a támasztóvektor-gépeket, amelyeket röviden SVM-nek szokás nevezni. Az algoritmus lényege, hogy olyan hipersíkot keres, mely határt képez a két különböző osztályba sorolt egyedek között. Esettanulmányomhoz kapcsolódóan elsőként említésre kerül a Magyar Államkincstár Kifizető Ügynöksége, mely az EU-s (társ) finanszírozású agrár- és vidékfejlesztési támogatások ellenőrzésének, odaítélésének és kifizetésének akkreditált intézménye. Ezen kívül bemutatom a kockázatelemzésen alapuló helyszíni ellenőrzésre történő kiválasztások jogi- és szabályozási hátterét is. Három lépcsős modellt alkalmaztam. Első lépésként bináris célváltozóra vonatkozóan készült becslés arra vonatkozóan, hogy mekkora valószínűséggel található területeltérés az adott parcellán. Három féle modell, neurális hálózat, támasztóvektor-gép, illetve grádiens turbózás készült. Második lépésben folytonos célváltozóra épült neurális hálózat és grádiens turbózás modell, melyek a területeltérés várható nagyságát becsülték meg. Harmadik lépésben ügyfélszintre átlagoltam a kockázati pontokat a parcellaterületekkel súlyozva. Az elkészült modellek kombinációival összesen hat féle pontozott állomány állt elő, majd ezt követően hat féle kiválasztás készült a kockázati pontok alapján. Az adatállományok bemutatása után ismertetem a szükséges adattisztítást és adattranszformációkat, melyek keretében a szakmai szempontoknak megfelelően létrejön néhány képzett változó, valamint megtörténik a magyarázó változók függetlenségét és a hiányzó értékek minimális számát szem előtt tartva a nem szükséges változók elhagyása is. Mind a bináris, mind a folytonos célváltozóra történő modellépítés előtt bemutatom az alkalmazott változószelekciós eljárásokat. Néhány, a bináris modellekhez használt bemeneti változón logaritmus transzformációt végeztem a ferde eloszlásuk miatt. A folytonos modelleket pedig a bemeneti változókból képzett csoportok WOE értékeire illesztettem. Az optimális modellek létrehozása után a modelleket a pontozandó állományon alkalmazva előálltak a kockázati pontokat tartalmazó állományok. Ezekből először kiválasztásra kerül a véletlen minta, majd a kockázati pontok alapján kiválasztott minta. Mind a hat féle pontozott állományból 2150 véletlen módon kiválasztott ügyfél, valamint 6896 kockázati pontok alapján kiválasztott ügyfél lett kiválasztva. A visszamérési adatállomány segítségével többféle módon vizsgáltam a modellek hatékonyságát. Az egyes vizsgálatoknál mindig a véletlen mintához hasonlítva kerül megállapításra az elérhető hatékonyságnövekedés. A hibaarányokat elemezve, mind ügyfélszinten, mind parcellaszinten a legjobb eredményeket a tisztán grádiens turbózást, valamint a grádiens turbózás bináris- és a neurális hálózat folytonos modellt alkalmazó módszerek érték el. A megtalált terület eltérések arányát vizsgálva a tisztán grádiens turbózást alkalmazó módszer volt a leghatékonyabb. Ez a modell csaknem 5,6-szor hatékonyabbnak bizonyult a véletlen kiválasztottakhoz képest. Végül figyelembe vettem, hogy hogyan alakult a kivetett szankciók mértéke az összes kiválasztott terület arányában. Ezen vizsgálat során is a kétféle grádiens turbózást alkalmazó kiválasztás érte el a legjobb eredményt, 381,52 HUF/ha szankciót állapított meg 10 000 HUF hektáronkénti támogatással számolva.Az eredmények általánosításával megállapítható, hogy az adatbányászati módszerek alkalmazása lehetővé teszi a helyszíni ellenőrzésre történő kiválasztások eredményességének növelését. Megállapítható, hogy a mindkét lépcsőben grádiens turbózást alkalmazó módszer bizonyult a leghatékonyabbnak a vizsgált szempontok alapján. Úgy gondolom, hogy a gyakorlatban is alkalmazható módszer, mivel könnyen érthető és reprezentánsan előállnak a modell által használt változók is fontossági sorrendben. | |
695 | |a adatbányászat | ||
695 | |a gépi tanulás | ||
695 | |a grádiens turbózás | ||
695 | |a kockázatelemzés | ||
695 | |a neurális hálózatok | ||
695 | |a svm | ||
695 | |a támasztóvektor-gép | ||
700 | 1 | |a Kovács Dr Endre |e ths | |
700 | 1 | |a Lelkes Miklós |e ths | |
856 | 4 | 0 | |u http://dolgozattar.uni-bge.hu/28999/1/Lakatos_%C3%81ron_QZJ9VP_Adatbanyaszat.pdf |z Dokumentum-elérés |
856 | 4 | 0 | |u http://dolgozattar.uni-bge.hu/28999/2/titkos%C3%ADt%C3%A1s_lakatosa.pdf |z Dokumentum-elérés |
856 | 4 | 0 | |u http://dolgozattar.uni-bge.hu/28999/3/BA_TO_lakatos_%C3%A1ron_qzj9vp.pdf |z Dokumentum-elérés |