Pipeline megvalósítása Apache Airflow-val

Saved in:
Bibliographic Details
Main Author: Székeli Szeverin
Other Authors: Fauszt Dr. Tibor
Pálvölgyi Ferenc
Format: Thesis
Kulcsszavak:Apache Airflow
Docker
etl
Pipeline
Python
Online Access:http://dolgozattar.uni-bge.hu/54956
Description
Abstract:Szakdolgozatom célja az volt, hogy a munkahelyemen tapasztalt üzleti igények és alkalmazott szoftverek, technológiák segítségével kialakítsak egy otthoni környezetben is működő alkalmazást. Üzleti igényként azt fogalmazta meg, hogy az adatok centralizáltan helyen tárolódjanak, valamint szükség esetén az adatok transzformálva legyenek. A megvalósításhoz a workflow módszert választottam, amelyet Apache Airflow segítségével valósítottam meg, amelyben pipeline-ket hoztam létre. A szakdolgozatomban bemutatom az Airflow működését, alapvető komponenseit, megvalósíthatóságát, valamint, a különböző pipeline-ket. Ezen kívül bemutattam a data engineer területet és azokat a szoftvereket, amiket használnak. Az alkalmazás implementálásához a Dockert mint konténer technológiát és a DBeaver SQL - klienst használtam. A flow-k implementálása Python programozási nyelvvel valósult meg. A kód egyik flow-a egy data pipeline-nak (MySQL serverről PostgredSQL serverre tölti az adatokat), a másik pedig egy ETL pipeline-k feleltethető meg.