Ang malaking data ay may walang katapusang potensyal na pag-unlad. Alamin natin kung ano ang malaking data at ang tatlong dahilan kung bakit ito naging sikat noong 2010.


Sa ilang mga punto, nagsimula kaming makatagpo ng hindi pamilyar na salitang Big Data sa pamamagitan ng iba't ibang media. Ilang taon na lamang ang lumipas mula nang maging popular ang mga salitang ito. Gayunpaman, ito ay labis na ginagamit ng media kamakailan na ang mga expression tulad ng "marketing gamit ang malaking data" ay nakababagot na ngayon sa amin. Kaya ano ang tungkol sa malaking data at data mining na nagpapasikat sa kanila?

Ang malaking data ay literal na nangangahulugang isang malaking set ng data. Anumang data na maaaring maimbak sa isang storage medium, mula sa mga simpleng numero hanggang sa kumplikadong mga larawan ng CCTV, ay maaaring maging malaking data sa pamamagitan ng pagtitipon ng mga ito upang bumuo ng isang set, anuman ang format. Sa madaling salita, mula sa pormal na aspeto ng data, walang pagkakaiba sa pagitan ng nakaraang data at malaking data. Gayunpaman, kung ang malaking data ay simpleng data na may malaking sukat, dapat ay naging kasing tanyag ito ngayon sa huling bahagi ng 1990s at unang bahagi ng 2000s, nang mabilis na umunlad ang teknolohiya ng computer. Gayunpaman, may tatlong dahilan kung bakit naging tanyag ang malaking data noong 2010s:

Una sa lahat, ang pinakamalaking dahilan ay ang paradigm shift sa CPU development. Ang CPU (Central Processing Unit) ay ang utak ng computer na nagsasagawa ng mga computational task. Noong nakaraan, ang bilis ng pag-unlad ay napakabilis na ang Batas ni Moore, na nagsasaad na ang pagganap ng CPU ay dumodoble kada 18 buwan, ay malawak na tinanggap. Gayunpaman, noong 2004, ang pagbuo ng mga CPU ay umabot sa limitasyon na tinatawag na '4GHz wall'. Noong nakaraan, ang direksyon ng pag-unlad ng CPU ay upang taasan ang bilis ng isang yunit ng pagpoproseso sa pamamagitan ng pagtaas ng bilang ng mga transistor (mga elemento ng computing) na ipinasok sa isang core (computing unit). Gayunpaman, ang pamamaraang ito ay nagkaroon ng malubhang problema sa init dahil habang ang pagsasama ng mga transistor ay tumaas, ang lugar ng pagwawaldas ng init para sa bawat transistor ay bumaba. Sa huli, nabigo ang mga tagagawa ng CPU na lutasin ang problema sa pag-init na ito. Bilang isang resulta, ang pagsasama ng transistor ay hindi lalampas sa isang tiyak na antas, at ang bilis ng pagpapatakbo ng isang core ay nanatili sa paligid ng 4GHz. Gayunpaman, sa halip na dagdagan ang bilang ng mga transistor sa core, ang mga tagagawa ng CPU ay nakahanap ng iba pang mga paraan upang harapin ang isyu sa init. Ang isang bagong tagumpay ay natagpuan sa pamamagitan ng pagbuo ng isang multi-core na CPU na may kasamang maraming mga core sa loob ng CPU. Habang ang mga kasalukuyang single-core na CPU ay nagpoproseso ng maraming gawain sa pagkakasunud-sunod ng isang core, ang mga multi-core na CPU ay nagpapataas ng bilis ng pagpoproseso sa pamamagitan ng paghahati at pag-parallelize ng maraming gawain sa maraming mga core at pagpoproseso ng mga ito nang sabay-sabay. Ang mga multi-core na CPU na ito ay lalong naging popular, at ang parallel computing technology na nagpoproseso ng data nang sabay-sabay ay nabuo. Bilang resulta, posible na ngayong mas mabilis at madaling pangasiwaan ang napakaraming data na dati ay hindi mahawakan dahil sa mga limitasyon sa bilis ng pag-compute.

Hindi lamang ang pagpapasikat ng mga multi-core na CPU, kundi pati na rin ang pagbuo ng storage media ay may malaking papel sa pagbubukas ng panahon ng malaking data. Sa kaso ng mga hard disk, isang kinatawan na daluyan ng imbakan, ang data ay naka-imbak sa mga metal plate na tinatawag na mga platter. Ang mga teknolohiya tulad ng pinahusay na magnetic record integration at multi-core na mga CPU para sa pagpasok ng maramihang mga platter sa isang hard disk ay binuo. Dahil dito, ang kapasidad ng imbakan ay tumaas nang husto, hanggang sa ang mga produktong may storage space na 8TB ay naging popular noong 2023s, na 1GB lamang noong 1990s. Gayundin, hindi tulad ng medyo mabagal na hard disk, lumitaw ang bagong storage media na may mataas na bilis tulad ng SSD (Solid State Drive). Naging mas madali ang paggamit ng malalaking halaga ng data na dati ay hindi maiimbak dahil sa hindi sapat na espasyo sa imbakan o mahirap iproseso dahil sa mabagal na bilis ng pagbasa at pagsulat kahit na nakaimbak.

Ang mga pag-unlad sa CPU at storage media ay naging posible upang magamit ang malalaking halaga ng data na dati ay hindi makalkula o maimbak. Gayunpaman, ang pangunahing pagkakaiba sa pagitan ng malaking data ngayon at ng nakaraang malaking data ay nakasalalay sa paraan ng pagkolekta ng data. Binago ng mga matalinong device at SNS, na naging mabilis na sikat noong 2010s, ang paradigm ng pangongolekta ng data. Ang mga smart device na direkta o hindi direktang konektado sa network ay nangongolekta ng data ng user sa pamamagitan ng iba't ibang sensor gaya ng mga camera, GPS (Global Positioning System), at NFC (Near Field Communication). At ang data na ito ay patuloy na ina-upload sa network. Bilang karagdagan, ang mga gumagamit ng SNS tulad ng Facebook at Twitter ay patuloy na nag-a-upload ng kanilang iba't ibang personal na impormasyon sa network. Noong nakaraan, ang pagkolekta ng data ay ginawa upang makakuha lamang ng tiyak na target na data na itinuturing ng paksa ng pangongolekta ng data na mahalaga. Gayunpaman, ang kasalukuyang pangongolekta ng data ay walang pinipiling nangongolekta ng napakalaking dami ng data na dumadaloy sa network sa pamamagitan ng mga smart device at SNS. Bukod pa rito, habang unti-unting umuunlad ang teknolohiya ng network, dumarami ang mga uri ng mga bagay na konektado sa network. Sa madaling salita, sa pagdating ng Internet of Things (IOT), ang lugar ng pagkolekta ng data ay lalong lumalawak.

Sa ganitong paraan, lumitaw ang konsepto ng malaking data sa pamamagitan ng maayos na kumbinasyon ng pagbuo ng mga multi-core na CPU, ang pagbuo ng storage media, at ang pagpapalawak ng saklaw ng pangongolekta ng data. Sa kasalukuyan, maraming kumpanya, gobyerno, at iba pang grupo ang naghuhukay sa malaking data na kanilang nakolekta upang makahanap ng kayamanan, at binibigyang-diin ng iba't ibang media ang kahalagahan ng malaking data. Ngunit higit sa lahat, ang kailangan nating isaalang-alang tungkol sa malaking data ay ang kasalukuyang malaking data ay simula pa lamang. Sa hinaharap, bubuo ang mga multi-core na CPU upang makapagsagawa ng mas mabilis na mga kalkulasyon nang sabay-sabay, at bubuo ang storage media upang makapag-imbak ng mas maraming data nang mas mabilis. At parami nang parami ang mga bagay na makokonekta sa network at ipapadala ang data na kanilang nakolekta sa network. Ang kasalukuyang malaking data na kasalukuyang nakikita naming malaki ay maaaring hindi masyadong malaki sa darating na panahon ng malaking data.