Big data

A big data fogalma alatt azt a komplex technológiai környezetet (szoftvert, hardvert, hálózati modelleket) értjük, amely lehetővé teszi olyan adatállományok feldolgozását, amelyek annyira nagy méretűek és annyira komplexek, hogy feldolgozásuk a meglévő adatbázis-menedzsment eszközökkel jelentős nehézségekbe ütközik. Leegyszerűsítve, a big data, mint fogalom a nagy mennyiségű, nagy sebességgel változó és nagyon változatos adatok feldolgozásáról szól.

Definíció

A big data nem konkrét technológia, hanem régi, bevált és új technológiák szintézise. Ezek a technológiák együttesen képesek biztosítani hatalmas mennyiségű, változatos adat gyors feldolgozását és kezelését. Biztosítják a valós idejű kiértékelést és amennyiben szükséges, a megfelelően gyors reagálást. A big data három meghatározó jellemzője angolul a 3 V (Volume, Velocity és Variety),^[1]

a nagyon nagy adatmennyiség,
a nagyon gyors adatfeldolgozás és
nagyon változatos adatok.

Bőgel György ezt kiegészítette még egy negyedik jellemzővel: az adatok megbízhatóságával, igaz voltával (Veracity).^[2]

A fogalom létrejötte

Az adatfeldolgozás igénye egyidős a számítógép megjelenésével. Az adatfeldolgozás első ötven évének legfontosabb technológiai eredményei három nagy korszakba oszthatók. Ennek a fejlődésnek a következő, negyedik technológia szintjét jelenti a big data, amelynek fogalmát 1998-ban John Mashey alkotta meg.^[3]

Strukturált adatok

Az 1960-as években a gazdasági életben megjelent a számítástechnika, és az adatokat eleinte fájlrendszerekben tárolták, a fájlokban tárolt adatok szekvenciálisan(wd) voltak elérhetők. A legelterjedtebb tároló a mágneses szalag volt. Az adatok elérésében a közvetlen hozzáférésű tárolóeszközök (DADS) elterjedése hozott jelentős változást. Ezen az eszközök használatának elterjedése tette lehetővé a szoftverfejlesztők számára a relációs adatbázisok elvének és gyakorlatának kidolgozását. Az 1970-évek nagy találmányai a relációs adatbázis (RDBMS) és a relációs adatbázisok kezelésére az SQL nyelvek, a riportprogram-generátorok (RPG) és további adatmenedzsment-eszközök. Az üzleti életben a számítástechnika egyre nagyobb elterjedését a relációs adatmodell tette lehetővé. Azonban az adatbázisok létrehozása és fenntartása meglehetősen költséges és időigényes azaz lassú volt. Hamarosan kidolgozták Entity-Relationship (ER) modellt és megjelentek az adattárházak (Data warehouses). A relációs adatbázisok használata az 1990-es évek elejére vált teljes körűen elfogadottá. Napjainkban a strukturált adatok feldolgozásának leghatékonyabb eszközei a skálázható hardvereket és a virtualizációs technikákat használó relációs adatbázisokon alapuló enterprise content management rendszerek és adattárházak. Azonban a tárolókapacitások növekedésével megjelentek a BLOB-ok(wd) (binary large objects) és ezek egyre nagyobb térnyerésével az objektumorientált adatbázis kezelő rendszerek (ODBMS) is.

Web és a Content menedzsment

1989-ben a CERN-ben megszületett a világháló és elindult hódító útján az internet. Az internettel szinte egy időben megjelentek a internetprotokoll alapú intranetek. Gondoljuk csak a multinacionális vállalatok világot behálózó magánhálózataira, egyes országok közigazgatási hálózataira vagy akár a Schengeni rendszerre. Már a web megjelenése előtt is léteztek a content menedzsment rendszerek. A web fejlődése során az enterprise content menedzsment rendszerekben egyre nagyobb igény volt a klasszikus dokumentumok mellett képek, videók, filmek és más bináris adatok(wd) tárolására, kezelésére és kiértékelésére. Ezeknek a bináris adatoknak az elérése metaadatokon keresztül egyre nehézkesebbé vált ezért a századforduló idején megjelentek a különböző képfelismerő szoftverek(wd). A web fejlődése e mellett szinte kikényszerítette a megosztott rendszerek egyre szélesebb elterjedését. Megjelentek a virtuális rendszerek és virtualizáció általánossá vált. Webes környezetben az adatok tárolásának új eszközei jelentek meg a felhők (cloud computing).

Virtualizáció

Az 1990-es évek végére a számítástechnikai fejlesztések a nagy sebességű optika hálózatok és a segítségükkel kialakított felhő rendszerek tették lehetővé a fizikai korlátok legyőzését. Gazdaságossá vált az adatok valósidejű tárolása és feldolgozása. Maguk a legfontosabb technológiák: a virtualizáció, a párhuzamos feldolgozás, az osztott fájlrendszerek (distributed fájl systems), in-memory adatbázisok(wd) legalábbis elvi szinten korábban is ismertek voltak azonban csak a századvég technológia fejlődése tette lehetővé gazdaságos alkalmazásukat. A nagy teljesítményű hardverek szolgáltatta lehetőségekhez új szoftver megoldásokra is szükség volt, a meglévő adatbányászati és content menedzsment eljárások mellett. Ilyen új technológia például a Hadoop és a MapReduce. A fejlesztések motorjai a nagyvállalatok, elsősorban bankok és a tudományos kutatás voltak. De megjelentek a kormányok is. A terrorizmus elleni harc a „big data” egyik fő motorja. Érdemes átgondolni milyen elképesztően nagy mennyiségű adatot kellett feldolgozni, hogy az interneten rendelt vegyi anyagok, és kamerafelvételek alapján megtalálják a Teréz körúti robbantót.

Infrastruktúra

A „Big data” létezésének alapfeltétele a megfelelő fizikai infrastruktúrának (hardver támogatásnak) a megléte. Az infrastruktúrának biztosítania kell a megfelelő performanciát(wd), azaz a rendszer nagyon nagy érzékenységgel kell, hogy rendelkezzen. Másik kulcsszempont a rendelkezésre állás. Csak százszázalékos rendelkezésre állás mellett van értelme egy ilyen rendszert üzemeltetni. Követelmény ezen kívül a megfelelő skálázhatóság is, mivel a Big data egyik meghatározó tulajdonsága a nagyon nagy és folyamatosan bővülő adatállomány. És ezen kívül figyelembe véve az adatok nagyon változatos voltát a rendszer flexibilitása is kihívások elé állítja az üzemeltetőt. A rendszernek redundánsnak és rugalmasnak (öngyógyítónak) kell lennie.

Tároló rendszerek

A hagyományos fájlrendszereket nem nagy léptékű adatfeldolgozásra tervezték. A modern tendencia nagy méretű kötegelt adatcsomagok (több megabyte-nyi adat) egyben történő írása és olvasása. Az információk felhasználóbarát megszervezésének legfontosabb szempontja a hatásfok. Az adatok nagyon nagy mennyisége egyben azt is jelenti, hogy az adatokat több gép között disztributív módon kell elosztani. Ennek megfelelően több különböző a POSIX szabványnak megfelelő speciális technológia jelent meg. Kettő a legfontosabbak közül:

Amazon S3 (Simple Storage Service) lehetővé teszi nagy adatcsomagok tárolását online szervizekbe szabványos HTTP web protokollt használva.
Apache Hadoop distributed file system-et a MapReduce és a MapReduce-hez hasonló alkalmazások támogatására dolgozták ki. Ezek nagy mennyiségű kötegelt adat olvasására és írására szolgálnak.

Szerverek

A „Big data” elképzelhetetlen a felhők nélkül. Egy informatikai rendszer kiépítéséhez a felhasználók ma már nem nagy hardver komplexumokat vásárolnak vagy leasingelnek hanem sokkal inkább virtuális szervereket(wd) bérelnek. Ennek rengeteg előnye van. Gazdaságosan és gyorsan lehet nagy számítógépfürtöket létrehozni, rugalmasan változtatható a virtuális gépek száma ami fontos lehet sok alkalmazásnál. Ennek megfelelően megjelentek az informatikai piacon a felhőket biztosító megoldások.

Az Amazon EC2 (Amazon Elastic Compute Cloud) egyszerűen fogalmazva egy virtuális-számítógép kölcsönző. Ahol szükség szerint bérelhető különböző tároló és CPU konfigurációkból álló virtuális-számítógép. A bérlő komplett linux vagy windows szervert kap, ahová gyökér-felhasználóként(wd) léphet be és lehetősége van a saját alkalmazásainak felinstallálására. A rendszer szükséglet szerint rugalmasan konfigurálható. Ezek virtuális gépek és az Amazon adatközpontjának fizikai gépein futnak.^[4]
Google App Engine (GAE) egy felhőrendszer platform. Tipikus megvalósítása egy PaaS (platform mint szerviz) platformnak. Feladata a Google által üzemeltetett adatközpontokban platformot biztosítani webes alkalmazások fejlesztésére és hossztolására(wd). Az ügyfél Javaban, JVM-ben vagy Pythonban írja webszolgáltatásait. Futtatásakor az App Engine gondoskodik róla, hogy az alkalmazás skálázható legyen, azaz ki tudjon szolgálni nagyon sok szimultán kérést. Az EC2-től éltérően itt a felhasználónak korlátozott a futtató környezet ellenőrzési lehetősége.
Heroku(wd) egy PaaS felhőplatform. Több, különböző web alkalmazás fejlesztésére alkalmas, programnyelvet támogat. A Heroku volt az egyik legelső felhőplatform. Kezdetben csak a Ruby nyelvet támogatta később ezt más nyelvekre is kiterjesztették (Java, Node.js, Scala, Clojure, Python, PHP, és Go). A fejlesztőknek lehetőséget biztosít, hogy azonos formában írhassanak, tesztelhessenek és futtathassanak skálázható alkalmazásokat különböző nyelvi környezetben.^[5]

Kommunikációs réteg

Minden adatfeldolgozási rendszerben, így a „big data”-ban is fontos szerepet kap a kommunikációs réteg. Az adatok adatbázisokba táplálása és az adatok kinyerése internet protokollon keresztül történik. Ezeknek az interfészeknek a megtervezése és üzemeltetése mind a szervezeten belül, mind az adott szervezet és a külvilág között sok kihívással jár.

Ezeket a feladatokat a programozók ősidők óta API-k segítségével oldják meg. API toolkitek (eszközrendszerek) sokasága áll rendelkezésre. Ezeket különböző speciális problémák megoldására hozták létre. Ha valakinek egy webes vagy egy mobilalkalmazás fejlesztésénél valamilyen API-ra van szüksége, több lehetőség között válogathat. „Big data” környezetben a hagyományos API-k mellett új eszközök is megjelentek.

REST (Representational State Transfer) egy szoftverarchitektúra-típus elosztott, gyengén kapcsolt rendszerek számára. Magyarul egy olyan API csomag, amely elsődleges célja, hogy egy nagy hálózat (pl.: a világháló) különböző erőforrásai (szerverek, kliensek, proxyk, átjárók(wd)) között kapcsolatot biztosítson.
Másik fontos kommunikációs eszköz, a webszolgáltatások egyik legfontosabb komponense a SOAP. A Szolgáltatásorientált architektúra. Ez szintén lazán kapcsolt rendszerek számára ad biztonságos, és szabványos komponenseket – szolgáltatásokat. Ezek a folyamatok folytonos változásának, megújulásának megfelelően újra felhasználhatók, újra kombinálhatók.

A kommunikációs rétegnél kell szólni a Natural Language Processing-ről – „NLP” vagy (természetes nyelvű adatfeldolgozás). Ez egy nagyon perspektivikus interfész fejlesztési irányzat. Az NLP lehetővé teszi az adatbázis-lekérdezést természetes nyelvi eszközökkel. Nyilván egy „big data” felhasználónak egyszerűbb feltenni a kérdést: „Listázd ki az összes házas, 30 és 40 év közötti, férfi, Szeged körzetében lakó, FTC drukkert” mint megírni egy 20-25 soros SQL lekérdezést.^[6]

Adatanalízis

Gondoljuk át például a BKK FUTÁR rendszerét.^[7] Ez egy sokunk életében jelenlévő „big data” rendszer. A Futár rendelkezik minden meghatározó (3V) jellemzővel. A nagy mennyiségű nagyon gyors adatforgalomról gondoskodik, a szolgáltatók (BKV, ArrivaBus, Volánbusz) mintegy 3000 járműve. Ezek pillanatnyi helyzetének koordinátáit folyamatosan szolgáltatják a járműveken elhelyezett GPS készülékek. Ehhez kapcsolódnak a Budapest forgalmát figyelő köztéri kameráktól és az útkereszteződésekben elhelyezett érzékelőkből érkező információk. A rendszer feladat ezeknek az adatoknak folyamatos figyelése, szükség esetén automatikus vagy emberi beavatkozások biztosítása. Statisztikai adatgyűjtés és analízis.

A „big data” legnagyobb kihívása a felhalmozott nagyon nagy mennyiségű adat felhasználás orientált kiértékelése, értelmezése. Itt a felhasználás módjától és az adatgyűjtés céljától függően a legkülönbözőbb megoldások vannak. Fontos terület a statisztikai analízis. Nagy előny, hogy a klasszikus üzleti intelligencia rendszerekben alkalmazott leíró statisztikai módszerek mellett a nagy adatmennyiség lehetővé teszi matematikai statisztikai módszerek alkalmazását is.

Az analízisek eredményeit emberi fogyasztásra alkalmassá kell tenni. Ezt vagy a statisztikai programokhoz kapcsolódó megoldások biztosítják, gráfokkal, grafikonokkal vagy azoktól független vizualizációs rendszerek.

Az R egy szabad, nyílt forráskódú, professzionális és folyamatos fejlesztés alatt álló, statisztikai szoftvercsomag. Statisztikai megoldások széles körét tartalmazza (lineáris és nemlineáris modellezés(wd), klasszikus statisztikai próbák, idősoranalízis, klaszterezés stb.).^[8] Az R nyelv/szoftver csomag integrálható Hadoop környezetben és más streaming nyelvekkel is használható.
Az IBM’s BigSheets egy felhő alkalmazás. Segítségével strukturált és strukturálatlan adatállományokon végezhetők ad-hoc analízisek. Lehetőséget biztosít elmélyült informatikai ismeretekkel nem rendelkező üzleti felhasználóknak is a „big data” kiértékelésére. Jól használható Apache Hadoop és MapReduce környezetben.^[9]

Vizualizáció

A „big data” adatok felhasználók számára fogyaszthatóvá tételéhez különböző vizualizációs alkalmazásokat használunk. Ilyenek például a Gephi, a Graphviz, a Processing, a D3.js(wd), a Google Fusion Tables(wd), vagy a Tableau.

Gephí egy nyílt forráskódú hálózatanalízist és vizualizációt támogató Javaban írt alkalmazás. A feldolgozatlan adatokat élek és csomópontok létrehozásával gráfokba rendezi. Nagyon jól használható szociális hálók kiértékelésénél és vizualizációjában. Alkalmazzák LinkedIn, Facebook és Twitter környezetben is a kapcsolati hálók feltárására. Több különböző elrendezést tartalmaz sokféle paraméterrel.
Google Fusion Tables a Google által adatmenedzsmentre, a Google Docs részeként, biztosított webszerviz. Adatgyűjtésre, adatvizualizációra és adatmegosztásra használható. A legkülönbözőbb grafikonok és diagram típusokat tartalmaz, de lehetőséget biztosít az adatok térképen történő megjelenítésére is.
Tableau eredetileg asztali alkalmazások grafikai támogatására írt program. Később a Tableau nagyszámú tartalom létrehozást (content creation) és online publikációt támogató megoldással bővült és nagyon népszerűvé vált a sajtóban, elsősorban a nagy online hírszolgáltatók körében. A Fusion Tableshez hasonlóan térképen is megjeleníthetők vele az adatok.

Etikai problémák

A „big data” önmagában mint adatállomány és a hozzátartozó informatikai környezet erkölcsileg értelmezhetetlen. Azonban a „big data“-t használó személyekkel, szervezetekkel kapcsolatosan már nem mondhatjuk el ezt. A „big data” hatalmas lehetőség mind gazdasági szempontból mind az emberek életminőségének(wd) javítása szempontjából, de ezzel együtt hatalmas veszélyt is jelent mivel tág teret ad a személyiségi jogok megsértésére. A lehetőségek és veszélyek egyensúlyának megtalálása korunk egyik legnagyobb erkölcsi kihívása. A „big data“ technológia lényegéből következik, hogy nehéz megtalálni a technológia természetéből következően, — egyik oldalon az üzleti érdekek (elektronikus kereskedelem stb.), másik oldalon szociális hálók által képviselt veszélyek, (Twitter, Facebook, Wikipédia stb.) — között az erkölcsileg még elfogadható használatot.

A személyiségi jogok kérdése

A „big data“, különösen a szociális háló részét képező oldalak LinkedIn, Facebook és Twitter, de a különböző gazdasági szervezetek, vagy kormányok által üzemeltetett „big data“ adatállományok is, töménytelen személyes adatot, információt tartalmaznak. És itt ne csak a legszűkebben vett személyes adatokra (pl.: születési hely, idő stb.) gondoljunk. Mert akár egy a Facebookra feltöltött fénykép is tartalmazhat védendő személyes adatot a helyszíntől a társaságtól függően. Ezek az adatok, és főleg az ezekből az adatokból adatbányászati eszközökkel kinyerhető személyiségi profilok, amennyiben illetéktelen kezekbe kerülnek vagy az adatgazdák jogellenesen használják fel ezeket, alkalmasak a törvényben nevesített személyhez fűződő jogok a becsület védelme, az emberi méltóság védelme, a jó hírnév védelme, a képmás és hangfelvétel oltalma, a személyes adatok védelme megsértésére. A személyes adatok védelme világszerte fontos kérdés. A fejlett államok törvényhozásai a „big data“ térhódításával rákényszerültek adatvédelmi törvények megalkotására. Az egyesült államok elnöke 2012 februárjába terjesztette be az USA személyes adatok védelméről szóló törvényét.^[10] A Magyar Parlament 2011-ben fogadta el az információs önrendelkezési jogról és az információszabadságról szóló törvényt.^[11] Az Európai Bizottság a tagországok adatvédelmi hatóságaival együttműködve 2012-től dolgozik az Unió adatvédelmi direktíváinak kidolgozásán. A reguláció 2016. május 24-én lépett életbe és a tagországoknak 2018. május 6-ig kell jogrendszerükbe beépíteni azt.^[12]^[13]

Jegyzetek

↑ Laney, Douglas: 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. [2013. július 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 8.)
↑ Bőgel, György, 1956-: A Big Data ökoszisztémája. 2015. ISBN 9789632798301 Hozzáférés: 2018. augusztus 7.
↑ John R. Mashey: Big Data ... and the Next Wave of InfraStress. Slides from invited talk. Usenix, 1998. április 25. (Hozzáférés: 2016. szeptember 28.)
↑ EC2 for Poet. (Hozzáférés: 2016. december 12.)
↑ Heroku Inc (US). (Hozzáférés: 2016. december 12.)
↑ Welcome to Apache OpenNLP. (Hozzáférés: 2016. december 14.)
↑ Budapesti integrált közlekedési informatikai rendszer, valós idejű adatokkal.
↑ GNU R: szoftver, programozási nyelv, közösség. [2014. május 28-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 15.)
↑ gain insights for your business and customers with IBM BigSheets (pdf). [2016. június 9-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 15.)
↑ CONSUMER DATA PRIVACY IN A NETWORKED WORLD (pdf). [2016. december 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 17.)
↑ 2011. évi CXII. törvény az információs önrendelkezési jogról és az információszabadságról.. (Hozzáférés: 2016. december 17.)
↑ Data protection Documents. (Hozzáférés: 2016. december 15.)
↑ Protection of personal data. (Hozzáférés: 2016. december 15.)

Források

Pete, Warden. Big Data Glossary. O’Reilly Media. ISBN 978-1-449-31459-0 (2011)
Hurwitz, Judith, Nugent Alan, Dr. Halper Fern, Kaufman Marcia. Big Data for Dummies. John Wiley & Sons, Inc.. ISBN 978-1-118-50422-2 (2013)

További információk

Gil Press: A Very Short History Of Big Data. Forbes Europe Magazin, 2013. május 9. (Hozzáférés: 2016. december 18.)
Егор Цветков: YOUR FACE IS BIG DATA. Bird in flight. (Hozzáférés: 2016. december 26.)
Viktor Mayer-Schönberger–Kenneth Cukier: Big data. Forradalmi módszer, amely megváltoztatja munkánkat, gondolkodásunkat és egész életünket; ford. Dankó Zsolt; HVG Könyvek, Bp., 2014
Bőgel György: A big data ökoszisztémája; Typotex, Bp., 2015 (Edition 2.0)
Forgács Imre: Az eltűnő munka nyomában. A Big Data és a pénztőke évszázada; Gondolat, Bp., 2015
Miskolczi Barna–Szathmáry Zoltán: Büntetőjogi kérdések az információk korában. Mesterséges intelligencia, big data, profilozás; HVG ORAC, Bp., 2018
Szármes Péter: Bevezetés a big data üzleti alkalmazásba; Universitas-Győr Nonprofit Kft., Győr, 2018
Amaël Cattaruzza: A digitális adatok geopolitikája. Hatalom és konfliktusok a big data korában; ford. Kazanlár Szilvia; Pallas Athéné, Bp., 2020
Miriam Rasch: Súrlódás. Etika a dataizmus korában; ford. Zákányi Viktor; Typotex, Budapest, 2022

Informatikai portál • összefoglaló, színes tartalomajánló lap

[1] Laney, Douglas: 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. [2013. július 23-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 8.)

[2] Bőgel, György, 1956-: A Big Data ökoszisztémája. 2015. ISBN 9789632798301 Hozzáférés: 2018. augusztus 7.

[3] John R. Mashey: Big Data ... and the Next Wave of InfraStress. Slides from invited talk. Usenix, 1998. április 25. (Hozzáférés: 2016. szeptember 28.)

[4] EC2 for Poet. (Hozzáférés: 2016. december 12.)

[5] Heroku Inc (US). (Hozzáférés: 2016. december 12.)

[6] Welcome to Apache OpenNLP. (Hozzáférés: 2016. december 14.)

[7] Budapesti integrált közlekedési informatikai rendszer, valós idejű adatokkal.

[8] GNU R: szoftver, programozási nyelv, közösség. [2014. május 28-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 15.)

[9] gain insights for your business and customers with IBM BigSheets (pdf). [2016. június 9-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 15.)

[10] CONSUMER DATA PRIVACY IN A NETWORKED WORLD (pdf). [2016. december 18-i dátummal az eredetiből archiválva]. (Hozzáférés: 2016. december 17.)

[11] 2011. évi CXII. törvény az információs önrendelkezési jogról és az információszabadságról.. (Hozzáférés: 2016. december 17.)

[12] Data protection Documents. (Hozzáférés: 2016. december 15.)

[13] Protection of personal data. (Hozzáférés: 2016. december 15.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]