10 ok, hogy miért nehéz ügy a Big Data – első rész

2014. okt 06.



Öt évvel ezelőtt a Google kutatói egy jelentős eredményt közöltek a világ egyik legkomolyabb tudományos lapjában, a Nature-ben. Bármiféle orvosi vizsgálati eredményekre vonatkozó információ nélkül képesek voltak az influenzajárvány terjedését előre jelezni az USA-ban. Ráadásul mindezt gyorsabban, mint a járványügy (CDC). A Google egy napos, míg a hivatalos szervek csak egy hetes vagy hosszabb átfutással voltak képesek térképeket rajzolni. Mindezt azért, mert az elemzők feltártak egy szoros korrelációt az influenzával kapcsolatos online keresések földrajzi helye és a betegségek előfordulása között.

Ráadásul módszertanilag ez egy hipotézismentes modell volt, abban az értelemben, hogy nem mondták meg az algoritmusnak, mit keressen, csak hogy állítson fel előrejelzést a top 50 millió keresésük metaadatai és az influenza terjedési adatok között.

Ez a modell aztán a Big Data egyik emblematikus, sokat hivatkozott referenciájává vált. Akkora volt az ilyenkor szokásos lelkesedés, hogy „The End of Theory” címmel egy meglehetősen provokatív cikk jelent meg 2008-ban a Wired magazinban. Eszerint a kutatói gondolkodást, a tudományos módszertant a jövőben lényegében kiváltja a „brute force” gépi modellalkotás. Pont úgy, ahogy a sakkvilágbajnok Kaszparovot is elkalapálta a szuperszámítógép.

A fenti történet a Financial Times egy cikkéből származik, de sokkal durvábban pozitivista példa az MIT-n oktató Alex Pentland Social Physics című 2012-es munkája, melyben adatokra épülő, a természettudományos logikát követő szemléletet mutat be. A Forbeson januárban jelent meg egy rövid cikk, amely a hagyományos, megérzés alapú reklámkommunikáció és marketing, valamint a Big Data megközelítés kutya-macska viszonyáról szól.

Ugyan hosszan lehetne folytatni a Big Datával kapcsolatos társadalomelméleti vonatkozásokat, a továbbiakban szeretnék inkább a gyakorlati problémákra fókuszálni. Szakmai beszélgetésekben nem vagyok egyedül, amikor a Big Datával kapcsolatos aggodalmaimat fejezem ki – melyek különben sokrétűek: a személyes adatbiztonságtól a magyar lemaradáson át a sikeres üzleti alkalmazás nehézségéig tartanak. Az angolszász sajtóban már számos ezzel kapcsolatos cikk jelent meg, most én is összegyűjtöttem néhány aggályt. Még egy fontos szempont a témával nem foglalkozóknak: van egy alapvető fogalmi kettősség, amelyben egyfelől a Big Datára, mint technológiai jelenségre, másfelől pedig az erre épülő analitikára és intelligens megoldásokra utal. Mostantól én elsősorban az előbbi, klasszikusabb értelmezést használom.

Ez alapján a Big Data újszerű adattároló technológiák összessége, amit alapvetően a nagy e-business technológiák képviselői fejlesztettek az alábbi okok kombinációi miatt:
– olcsó tárolása a nagy adattömegeknek
– skálázhatóság
– performancia
– open source, olcsó licenszdíjak

Ezek elég vonzó előnyök, fontosak lehetnek azonban a hátrányok és korlátok, amikről a marketing anyagokban nemigen olvasni. Mivel a Big Data kezdeteit 2008 körül kezdjük számítani, így mostanra elég sok tapasztalat szűrődött le a világban. Külföldi és magyar tapasztalatok alapján próbáltam összeszedni a Big Datával kapcsolatban felmerült legfontosabb problémákat. Ezek részben technológiaiak, részben üzletiek. A magam részéről én az utóbbiakat tartom fontosabbnak.

1.) A Big Datát az olcsó adattárolás és adatkezelés igénye hívta életre
Ez önmagában nem probléma, hanem lehetőség. Azonban óriási a szakadék az adatokban rejlő lehetőségek kiaknázása, illetve aközött, hogy fizikailag képesek vagyunk eltárolni és előhívni a sok adatunkat. Ezt a kölönbségtételt a nagy vizionáriusok néha kissé elhanyagolják. Hasonló szakadék nehezítette az adattárházak kihasználását a 90-es évek végén.

2.) A Big Data komoly specifikus tudást igényel
Ez persze sok új technológiával így van, a szállítók, a technológiai éllovasok meg örülnek, hogy ebből jó üzletet csinálhatnak. Ugyanakkor a feladat nehézségével arányosan csökken a sikeres projektek aránya, márpedig a Big Datában a belépési küszöb elég magas. Nemigen lehet elkezdeni kicsiben, így nehezen működik a máshol jól bevált „quick win” megközelítésmód.

3.) IT-sek csinálják, üzleti szakértők nélkül
Az informatika bővülése során folymatosan esik szét újabb és újabb kompetenciaterületekre, szakmákra. A BD megint egy ilyen, sokfajta tudást igénylő új terület. A terület fiatal gurui azonban általában híján vannak az iparágspecifikus üzleti tudásnak, amely nélkül viszont a sikeres alkalmazás esélye csekély. Megfordítva: az összes sikeres nagy BD példa esetében a kezdetektől nagyon világos volt, hogy mit akarnak kezdeni az adattal, igazából „csupán” ehhez alkalmas eszközrendszert kerestek/hoztak létre.

4.) Az ingyenesség veszélyes téves mítosza
Az alapvető BD technológiák között általános az open source. Tehát tulajdonképpen a legmodernebb, legnagyobb kapacitású adatkezelési technológiák alapjai ingyenesek, míg a klasszikus nagy RDBM-ek, illetve a nagykapacitású tárolórendszerek tipikusan igen drágák. Persze jobban figyelembe véve a technológia költségeit kiderül, hogy a BD nagy mértékben igényel egyedi fejlesztéseket, így a költségek túlnyomó része nem hardver/szoftver, hanem emberi erőforrás jellegű.

5.) Nincs egységes platform
A legtöbb Big Data technológia valamilyen közösségi projekten alapul. A nagy szállítók kínálata felvásárlások révén bővül, emellett a kialakuló standardokhoz igyekeznek idomulni. Korábban azért néhány vezető szállító technológiái versenyeztek, a nyílt platformok inkább ezek mellett futottak. Néha olyan érzésem van, mintha közösségi alapon szerveződve próbálnánk a Marsra jutni, de persze majd kiderül, hogy ez működhet-e?

Négy év múlva aztán az aktuális influenzajárványnak a Google Trends Flu is áldozatául esett. A korábban megbízhatóan, stabilan teljesítő előrejelzések elromlottak. Ráadásul a kutatók nem tudták az okát, hiszen nem ismerték hogy mi kapcsolja a kereséseket a tényleges influenzához. Mindenesetre ez a kapcsolat váratlanul megváltozott, és ezt senki sem jelezte előre. Persze a modellt újratanították, újrakalibrálták, és kigyógyult a betegségéből, de azért látszik, hogy a statisztika 200 éves történetében menetrendszerűen ismétlődő hasonló példák kora még nem járt le, és egy darabig még nem is fog.

A cikk második részében további üzleti okokkal, és néhány, a magyar piacot különösen jellemző problémával foglalkozom majd.

Körmendi György
ügyvezető igazgató
Clementine Consulting

Posted by NRC Marketingkutató in : Egyéb, Nincs hozzászólás a(z) 10 ok, hogy miért nehéz ügy a Big Data – első rész bejegyzéshez

Szóljon hozzá!

You must be logged in to post a comment.

Kapcsolat

NRC Kft. 1034 Budapest, Kenyeres utca 28. www.nrc.hu

piackutatas@nrc.hu
Facebook Twitter

Küldjön üzenetet nekünk!