Masovni podatki

Uvod

Angleški originalni naziv "big data" je malo zavajajoč, saj masovni podatki niso nič večji od običajnih. Jih pa je zato ogromno in je zato slovenski prevod bolj primeren..

Walmart obravnava vsako uro več kot milijon transakcij svojih strank.
Facebook ima v bazi svojih uporabnikov več kot 40 milijard fotografij in vsak dan generira 10TB novih podatkov.
Boeing 737 generira 240TB podatkov med enim samim poletom.
Pametni telefoni tvorijo in uporabljajo številne podatke, S senzorji v vsakodnevnih objektih bomo kmalu šteli nove podatke v milijardah. Stalno posodabljani podatki so s področja okolja, lokacije ipd. Vključujejo lahko tudi zvok in video.
Dekodiranje človeškega genoma bi včasih terjalo 10 let, danes to dosežemo v enem tednu.

V slovenščini najdemo za angleški izraz "big data" tudi prevod "množični podatki".

Masovni podatki (so postali popularni v prvem desetletju 21. stoletja. Najprej so jih začele uvajati spletne organizacije, kot so Google, eBay, LinkedIn in Facebook. Masovni podatki naj bi privedli do dramatičnih znižanj stroškov in krajše čase za izvedbo storitev in tudi samo uvajanje novih proizvodov in storitev.

Masovni podatki’ so torej podobni ‘klasičnim podatkom’, vendar v razliko tradicionalnih računalniških tehnik terjajo drugačne pristope s ciljem reševanja novih problemov ali starih na boljši način: drugačne tehnike, orodja in zgradbo.

Na področju masovnih podatkov govorimo o analizi, sistematičnem izluščenju informacij in drugačnih obravnavah množic podatkov, ki so preobširne ali prekompleksne za obdelavo s klasičnimi programi za obdelavo podatkov. Analiza masovnih podatkov vključuije zajem podatkov, njihovo pomnenje, analizo podatkov, poizvedbe, prenose, vizualizacijo, posodabljanje in tudi upoštevanje zasebnosti.

Značilnosti masovnih podatkov

Masovne podatke so v začetku povezovali s tremi ključnimi pojmi:

Količino,
raznolikostjo
hitrostjo.

1. Značilnost: količina podatkov

Tipični PC ima več 100 GB, morda celo 1TB diskovne kapacitete. Organizacije pa zbirajo podatke iz različnih virov, kar vključuje tudi bančne transakcije, male napravice (v sklopu Interneta stvari), industrijsko opremo, video, družbene medije itd. Včasih bi to predstavljalo problem, danes pa najdemo cenejše shrambe, kot so na primer podatkovna jezera.

2. Značilnost: hitrost

Hitri algoritmi izražajo spremembe na tržišču v mikrosekundah
Prihaja do izmenjav podatkov med milijardami naprav
Infrastruktura in senzorji generirajo masivne dnevniške zapise (log) v realnem času
Zajemamo lahko obnašanje uporabnikov z milijoni klikov na sekundo
Spletni igralni sistemi podpirajo milijone sočasnih uporabnikov, vsak od teh pa vsako sekundo proizvaja več vhodnih dogodkov.

3.Značilnost: raznolikost

Masovni podatki niso le številke, datumi in nizi. Imamo tudi geoprostorske podatke, 3D podatke, audio in video, pa nestrukturirana besedila, vključno z dnevniki (log datoteke) in družbenimi mediji.
Tradicionalni sistemi podatkovnih baz so bili načrtovani za obravnavo manjših količin strukturiranih podatkov, bolj redkimi posodabljanji in napovedljivo, konsistentno strukturo podatkov.
Analiza masovnih podatkov mora upoštevati različne tipe podatkov.

Včasih sta tem trem značilnostim dodana še dva pojma:

Spremenljivost:

Poleg naraščajočih hitrosti in raznolikosti podatkov so tudi pretoki podatkov nepredvidljivi - pogosto se spreminjajo in močno razlikujejo. To je zahtevno, toda podjetja morajo vedeti, kdaj je nekaj v trendu v družabnih omrežjih, in kako upravljati dnevne, sezonske spremembe in dogodke, ki jih sprožijo največje obremenitve .

Verodostojnost:

Verodostojnost se nanaša na kakovost podatkov. Ker podatki prihajajo iz toliko različnih virov, je težko povezati, očistiti in preoblikovati podatke med sistemi. Podjetja morajo povezati relacije in iskati korelacije, hierarhije in večkratne povezave med podatki. V nasprotnem primeru lahko hitro izgubijo nadzor nad podatki.

Shramba, izbira in obdelava masovnih podatkov

Srečamo se s pojmom podatkovnih jezer (data lakes).

Podatkovno jezero je centralizirano skladišče podatkov, ki so shranjeni v surovi (naravni) obliki. Vsebuje kopije surovih podatkov (iz senzorjev, družbenih medijev ipd) pa tudi predelane podatke, kot so poročila, vizualizacije, podatki iz napredne analitike in strojnega učenja.

Podatkovno jezero lahko vključuje tako strukturirane podatke iz relacijskih baz (tabele), kot tudi delno strukturirane podatke (CSV, XML, JSON) in povsem nestrukturirane podatke (elektronska pošta, dokumenti, pdf) ter binarne podatke (slike, avdio, video).

Medtem ko klasično hierarhično podatkovno skladišče shranjuje podatke v datotekah ali mapah, shranjuje podatkovno jezero podatke brez hierarhije. Vsakemu podatkovnemu elementu v jezeru je dodeljen edinstven identifikator in je označen z nizom metapodatkov. Ko želimo odgovor na neko vprašanje, lahko s poizvedbo v podatkovnem jezeru poiščemo ustrezne podatke, nato pa tako pridobljeni ožji izbor podatkov podrobneje analiziramo.

Kot primer omenimo Hadoop. To je je odprtokodni okvir, ki temelji na Javi in se uporablja za shranjevanje in obdelavo velikih podatkov. Podatki so shranjeni na poceni strežnikih, ki delujejo kot grozdi. Njegov porazdeljeni datotečni sistem omogoča sočasno obdelavo in odpornost na napake.

V čem je posebnost masovnih podatkov

V nekaterih primerih so ti podatki avtomatsko, strojno generirani (na primer s senzorji v grajenimi v nek stroj)
Tipično je to nek popolnoma nov podatkovni vir (na primer uporaba na Internetu)
Pogosto niso načrtovani uporabniku prijazno (na primer tokovi besedil)
Morda nimajo kakšne posebne vrednosti (in se moramo osredotočiti le na pomemben del)

Viri masovnih podatkov

Viri so lahko:

Uporabniki
Aplikacije in drugi programi
Sistemi
Senzorji
Bralniki in skenerji
Mikrofoni in kamere
Mobilne naprave
Družbeni mediji
Naprave v znanstvenih laboratorijih

Postopki obdelave masovnih podatkov

Proučevanje značilnosti naših podatkov.
Pregled in izbira skladišč masovnih podatkov, primernih glede na značilnosti iskanih podatkov.
Izbrati moramo vire podatkov za analiziranje.
Izločanje redundantnih podatkov.
Podatkovni modeli: pari ključ:vrednost, grafi dokumenti, ...
Preslikava podatkov v programsko okolje.
Povezava s podatki in njihovo izluščenje iz skladišč

Orodja za masovne podatke

Sistemi za upravljanje relacijskih podatkovnih baz in namizne statistične aplikacije pogosto niso primerne za obdelavo in analizo masivnih podatkov. Potrebujemo računalniško moč, ki jo nudijo paralelne programske aplikacije, ki tečejo na desetinah, stotinah, morda celo tisočih strežnikov.

Odpirajo se naslednja vprašanja:

Kje so podatki shranjeni in kako indeksirani
Kje bo potekala obdelava podatkov (gostovanje na porazdeljenih strežnikih, v oblaku)
Kakšne operacije potrebujemo na podatkih:(statistična obdelava, semantična obdelava)

Aplikacije masovnih podatkov

Trenutna uporaba masovnih podatkov se večinoma nanaša na napovedno analitiko (predictive analytics), analitiko obnašanja uporabnikov in nekatere napredne analitične metode izluščenja vrednosti iz masovnih podatkov. Količine podatkov so res obsežne. Analiza podatkov išče trende v poslovanju, skuša preprečevati bolezni, uporabna je v borbi proti kriminalu. Znanstveniki, poslovneži, zdravstveni analitiki, svetovalci in vlade imajo težave z velikimi množicami podatkov. Omejitve najdemo tudi pri meteorologiji, kompleksnih fizikalnih simulacijah, biologiji in okoljskih raziskavah.

Dober primer uporabe masovnih podatkov je spremljanje poteka bolezni Covid 19 po državah in to v realnem času:

Analitika masovnih podatkov

Pri proučevanju velikih količin podatkov želimo ugotoviti prave informacije, identificirati skrite vzorce in neznane korelacije. Vse to nam lahko ponudi konkurenčno prednost, boljše poslovne odločitve, učinkovito trženje in povečano zadovoljstvo strank. Pa tudi povečanje dobička.

Masovni podatki v realnem času niso ravno problem skladiščenja petabajtov ali eksabajtov. Bolj je izziv v tem, da morajo potekati naše boljše odločitve in smiselne akcije v pravem času.

Tveganja pri masovnih podatkih

Preobremenjenost infrastrukture
Potreba po pravih ljudeh za reševanje pravih problemov
Stroški se prehitro stopnjujejo
Ni treba vsega zajeti 100%
Virov masovnih podatkov je veliko
Problemi zasebnosti
Samoregulacija
Pravne regulative

Kako bodo masovni podatki vplivali na IT in gospodarstvo.

Veliko računalniških firm se specializira na upravljanje s podatki in analitiko. Masovni podatki predstavljajo za IT organizacije tako izziv kot priložnosti. Obstaja pomanjkanje kadrov s področja podatkovne analitike in upravljanja s podatki.