Kas yra „Big Data“?
Aš Ne Herojus Dideli Duomenys / / March 26, 2020
Paskutinį kartą atnaujinta
„Didelių duomenų“ pavertimas reikšmingais rezultatais gali atrodyti sudėtingas. Bet kai supranti, kas tai yra ir kaip jis veikia, padaryti jį prasmingu nėra taip sudėtinga.
Metams bėgant, daugybė skambių žodžių tapo madinga daugelyje pramonės šakų. Nedaug yra tokių, kurie tapo tokie populiarūs ir tiek ilgai, kaip dideli duomenys. Bet kas tiksliai yra dideli duomenys?
Stambūs duomenys reiškia virtualų vandenyną, gaunamą iš įvairių šaltinių, analizuojamą ir filtruojamą tokiu būdu, kad būtų gauti reikšmingi ir praktiški rezultatai.
„Didelių duomenų“ pavertimas reikšmingais rezultatais gali pasirodyti sudėtingas ir sudėtingas. Tačiau supratus, kas yra dideli duomenys ir kaip jie veikia, suprasti, kaip padaryti juos reikšmingus, neatrodo taip sudėtinga.
Kas yra „Big Data“?
Kai girdi, kaip žmonės kalba apie „didelius duomenis“, dažniausiai tai tariama rankomis plačiai ir žodžiais tariant. Tačiau kai užverdate visą hiperbolę, faktiniai „duomenys“ iš tikrųjų yra daug kelių duomenų įvesties srautų.
Tai suprasti gali padėti pavyzdys. Tarkime, jūs vadovaujate skėčių gamybos įmonei. Jūsų rinkodaros skyrius ieško būdo, kaip geriau numatyti, kada rinkos paklausa ims didėti.
Prieš didelių dienų dienas rinkodaros specialistai tyrinėjo rinkos tendencijas, siunčia klientų apklausas ir daugybę kitų veiklų.
Jie surinktų visus tuos duomenis ir saugotų savo įmonės vidinėse duomenų bazėse. Kažkas netgi gali būti atsakingas už rinkodaros tyrimų duomenų atnaujinimą kasmet arba kas ketvirtį.
Tačiau atsiradus dideliam duomenų kiekiui, išplečiamos galimybės atlikti tokio pobūdžio tyrimus. Visų pirma, dideli duomenys yra ypač veiksmingi nustatant svarbias tendencijas ar įvykius beveik realiuoju laiku.
Duomenys, įvedami atliekant tokios rūšies „didelių duomenų“ analizę, gali apimti realiojo laiko duomenų srautus, įrašant kodą, kuris jungiamas Programų programavimo sąsaja (API) daugelio skirtingų bendrovių, paskelbusių tuos duomenis viešai:
- „Twitter“ ir „Facebook“: Nustatykite, kada ir kodėl žmonės diskutuoja apie skėčių pirkimą.
- Orai: Identifikavimas oro sąlygos arba prognozes, kurios gali virsti didesniais skėčių pardavimais.
- Akcijų birža: Sezoniniai skėčių gamybos žaliavų kainų pokyčiai.
- Kliento žiniatinklio naudojimas: Naudojant informaciją iš kompiuterio slapukai žmonių, kurie apsilanko įmonės kataloge, kad suprastų pirkimo elgseną.
- Pirkėjų pirkimo istorija: Mažmenininkų geografijos ir pardavimo vietų tendencijų stebėjimas.
Norėdami naudoti didelius duomenis, šios įmonės rinkodaros komanda kai kuriais atvejais turės įdiegti naujas technologijas.
„Big Data“ ir internetas
Tai gali apimti mažmenininkų daiktų interneto (IoT) technologiją, kuri seka ir praneša apie vartotojų elgesį. Arba gali prireikti, kad programuotojas parašytų kodą, reikalingą sąsajai su „Twitter“ API, išfiltruoti visus „Tweets“, kuriuose minimi „skėčiai“ ar įmonės pavadinimas.
Dabar visos šios technologijos yra prieinamos interneto dėka. Internetas suteikia galimybę kiekvienam naudotis duomenų srautais iš viso pasaulio.
Štai kaip šiuo atveju gali veikti mūsų sąrankos sąranka.
Ši diagrama parodo, kaip iš daugelio skirtingų šaltinių duomenys patenka į bendrovės „duomenų ežerą“. Gaunami duomenys gali būti struktūruoti skirtingai, tačiau svarbu surinkti kuo daugiau duomenų iš visų šaltinių.
Kas yra duomenų ežeras?
Skirtingai nuo duomenų bazės, kurioje yra struktūrizuoti duomenys, suskirstyti į tam tikras stulpelius ir eilutes, duomenų ežeras yra didžiulė įvairių formų duomenų saugykla.
Saugomi duomenys gali būti struktūrizuoti arba nestruktūruoti. Reiškia, kad ji gali turėti struktūruotas eiles ir stulpelius, arba negali. Duomenys gali būti eilutės, kurios duomenims atskirti naudoja specialų formatą. Kiekvienas duomenų šaltinis gali pateikti duomenis į duomenų ežerą bet kokia forma.
Pavaizduokite duomenų ežerą kaip didžiulę biblioteką, kurioje yra įvairių formų laikmenos, pavyzdžiui, knygos, atvaizdai mikrofišuose ir vaizdo įrašai DVD diskuose.
Įsivaizduokite, kad skaitmeninės žvalgybos ir duomenų analizės inžinierius yra šios bibliotekos globėjas. Šie mecenatai gali skaitmeniniu būdu išimti duomenis iš knygų, mikrofilmų ir DVD ir rasti būdų, kaip tuos duomenis maišyti ir sujungti, ir išmokti dalykų iš to, kaip duomenys koreliuoja.
Iš tų žinių išplaukia realus, veiksmingas intelektas. Kai kurie iš šių pavyzdžių gali apimti:
- Pašnekesiai „Twitter“ ir „Facebook“ rodo artėjančią audrą Niujorke, tūkstančiams klientų planuojantiems nusipirkti skėčius.
- Kompiuterinių slapukų pirkimo duomenys ir mažmeninės prekybos kasos rodo, kad pirkėjai Kalifornijoje už dizainerių skėčius nori mokėti daugiau nei Virdžinijos gyventojai.
- Didelis audrų srautas rodo, kad didžiąją dalį rytinės pakrantės visą savaitę uždengs liūtys.
Visi šie mokymai gali paskatinti rinkodaros komandą investuoti į daugiau reklamos geografiškai ten, kur skėčių pardavimo paklausa yra daug didesnė. Gamybos operacijos taip pat galėtų nukreipti savo gamybos pastangas į tuos pasaulio regionus, kur arčiau pardavimų tikimybės.
Tokiu būdu, naudodama didelius duomenis, bet kuri įmonė gali supaprastinti savo rinkodarą ir operacijas.
Kas yra „Hadoop“?
Kitas klausimas yra, kaip įmonės apdoroja tokius didelius duomenų kiekius ir nustato tendencijas?
Tokiam duomenų graužimui reikalingi didžiuliai kompiuterio ištekliai. Tiek daug, kad įmonės daugiau nebenaudoja didelių kompiuterių pagrindiniuose kompiuteriuose, kaip anksčiau. Dabar daugelis šių paslaugų yra pirkimai iš debesies. Debesų duomenų žvalgybos tarnybos, tokios kaip „Apache Hadoop“, siūlo daugybę kompiuterio mazgų dideliame debesų tinkle. Kiekvienas iš šių mazgų prisideda prie apdorojimo galios, reikalingos norint analizuoti didžiulius duomenų srautus iš kelių šaltinių.
Tokia duomenų apdorojimo galia yra kompiuterio ar skaitmeninės žvalgybos ir duomenų analizės pagrindas. „Hadoop“ yra programinės įrangos sistema, leidžianti šiam darbui atlikti visą didžiulės skaičiavimo galios tinklą, reikalingą skaitmeninės žvalgybos inžinieriams.
Kai skaičiavimo variklis sukuria veikiančią intelektą, jie paprastai įmonei pateikiami prietaisų skydelių ar ataskaitų pavidalu.
„Big Data“ nėra vien tik žodžiai
Tiesa ta, kad „dideli duomenys“ yra daugiau nei vien tik verslo lingo. Daugelis kompanijų sužino, kad geriau panaudodamos duomenis jos gali pasiekti daugybę laimėjimų.
- Gamintojai gali patobulinti kritinius gamybos rodiklius, tokius kaip derlius, kokybė ir efektyvumas.
- Mažmenininkai gali geriau suderinti rinkodaros, reklamos ir verslo investicijas, remdamiesi rinkos signalais.
- Platintojai sugeba numatyti galimas problemas tiekimo grandinėje, kad galėtų paruošti nenumatytų atvejų planus.
- Analizuodami visuomenės signalus internete, naujienų organizacijos gali greitai nustatyti vertus įvykius.
- Kibernetinio saugumo ekspertai naudoti signalus internete identifikuoti kibernetines atakas, kai jie vyksta.
Nors didžioji dalis to, ką sukaupta per pastaruosius metus, yra beveik nematoma visuomenei, stambūs duomenys iš tikrųjų padarė didelę įtaką viso pasaulio žmonių kasdieniam gyvenimui.