Gépi tanulás alkalmazása vásárlói vélemények szentimentjének elemzésére

Elmentve itt :
Bibliográfiai részletek
Szerző: Tamásovics Zsombor
További közreműködők: Kovács Dr. Endre
Tóth Zoltán
Dokumentumtípus: Diplomadolgozat
Kulcsszavak:adatbányászat
automatikus szövegelemzés
gépi tanulás
mesterséges intelligencia
szövegbányászat
szövegfeldolgozás
Online Access:http://dolgozattar.uni-bge.hu/44915
Leíró adatok
Kivonat:Tanulmányomban azokra a kutatási kérdésekre keresetem a választ, hogy „Hogyan alkalmazhatók a gépi tanulás és a szentiment analízis eszközei az üzleti élet, vagy kutatások területén ”, illetve hogy „Milyen előnyökre tehetünk szert a gépi tanulással megvalósított szentiment elemzés alkalmazásával vásárlói visszajelzések értelmezése során ”.Dolgozatom elején, szakirodalmi áttekintésen keresztül mutattam be a gépi tanulás témáját, ezen belül annak teljes folyamatát, legfontosabb lépéseit, valamint az eredményességének értékelésére elérhető módszereket és mérőszámokat. Ezen felül, bemutatásra került a természetesnyelv-feldolgozás témaköre, fókuszban a szentiment analízissel, valamint a gépi tanulással, azon belül a Naive Bayes modellel végzett szentiment elemzéssel.Ezt követően bemutattam a VADER lexikon alapú szentiment elemző eszközt, valamint a megfelelő adatelőkészítési lépések után bemutattam annak működését a Yelp Inc. által biztosított, 6.6 millió vásárlói véleményt tartalmazó, publikus adathalmazon. A technológia alkalmazása eredményeképp, minden vásárlói vélemény szövegéhez hozzá lett rendelve egy polaritási pont, ami a szöveg hangulatára utalt. Az eredményesség mérőszáma szerint, a polaritási pontok, és a vásárók által adott csillagos értékelések közti korreláció, vagyis az együtt mozgásuk mértéke 49%, vagyis közepes/közepesen erős.Következő szentiment elemző módszerként, egy Naive Bayes modellt tanítottam be az említett adatokon, amely a vélemények csillagos besorolását becsülte meg. A modell finomhangolását és az célváltozók eloszlásának kiegyensúlyozását követően, a létrejött modell áltagosan 53%-os felidézéssel osztályozta a véleményeket, vagyis az adathalmaz összes előfordulásából ilyen arányban sikerült azok osztályára helyes becslést adni. Ez az érték a különböző, osztályonkénti értékek súlyozott átlaga.A végső cél, egy szentimentet meghatározó modell megalkotása volt, így újra kódoltam a célváltozót, pozitív és negatív kategóriákra, majd az új célváltozókkal újra betanítottam egy Naive Bayes modellt. Ennek finomhangolása, és az adathalmaz eloszlásának kiegyensúlyozása után, egy olyan modell született, amely a különböző osztályokon való teljesítményeinek súlyozott átlaga szerint 86%-os pontossággal, és 85,8%-os felidézéssel volt képes „pozitív” vagy „negatív” hangulatot tulajdonítani a véleményeknek.A modell céljának központjába, a vásárlói panaszok kiszűrését állítottam, így az vált a modell legfontosabb céljává, hogy az összes negatív hangulatú véleményből minél többet legyen képes negatívnak osztályozni. Egy végső finomhangolási lépés után a modell, az összes negatív véleménynek a 90,4%-át osztályozta helyesen negatívnak.A dolgozatomban bemutattam, hogy a (nem mindig adott) megfelelő mennyiségű és minőségű adatok birtokában, a gépi tanulás alkalmazásával jelentős manuális munka spórolható meg a szövegelemzési feladatokban.