Słyszeliście o „brudnym” Internecie? Organizacje również go współtworzą!
Wiecie, z czego składa się w większości ukochana przez nas globalna sieć? Są to tzw. ciemne dane, nieuporządkowane, chaotyczne zbiory danych, które mogą być potencjalnie niebezpieczne. I każdy z nas bierze udział w ich generowaniu…
Jeden z cyfrowych gigantów - słynne Oracle - szacuje, że sieć WWW powiększa się średnio o 40 proc. rocznie. A więc w przeciągu pięciu lat będzie ponad dziesięć razy większy, niż obecnie, rozrastając się z 5 do oszałamiających 45 zettabajtów. Wszystko, co generujemy swoją obecnością w sieci, jest niczym wielkie składowisko danych, przy czym lwia ich część to śmieci.
Internet można by generalnie podzielić na trzy elementy: Big Data, Dark Data i Dirty Data. Pierwsze to dane. Czyste, przydatne dane, które mogą być wykorzystywane przez firmy, organizacje, użytkowników i kogokolwiek, kto chce analizować jakieś tam schematy sieciowe - od marketingu po socjologię. Drugie to nieuporządkowane dane, tak zwane „mroczne” elementy, które niepokoją analityków, bo wpływają negatywnie na ich pracę. Trzecie wreszcie to dane brudne, bezwartościowe śmieci generowane głównie przez media społecznościowe.
No dobrze, ale czemu Dark i Dirty Data stanowią tak ogromny problem? Odpowiedzi na to pytanie, przynajmniej częściowo, udzielił Vinton Gray Cerf, wiceprezydent Google. Podczas swojej prelekcji dla American Association for the Advancement of Science powiedział: „Digitalizujemy rzeczy, ponieważ myślimy, że dzięki temu to je uchroni. Nie rozumiemy jednak, że jeśli nie podejmiemy kolejnych kroków, to zdigitalizowane przez nas rzeczy mogą nawet okazać się gorsze od swoich rzeczywistych pierwowzorów”. W praktyce oznacza to, że wprowadzanie coraz to nowych elementów do świata cyfrowego zaburza jego transparentność i czytelność, a co za tym idzie - ingeruje w analizy Big Data, które są dzisiaj podstawą jakichkolwiek podejmowanych w sieci akcji.
Uporządkujmy to. Generalnie chodzi o to, że duże zbiory danych, czyli rzeczone Big Data, analizowane są pod kątem czterech aspektów: wiarygodności, ilości, różnorodności i prędkości. To tzw. zasada 4V (veracity, volume, cariety, velocity). W momencie, kiedy dane ciemne i brudne mieszają się z Big Data, całkowicie zostaje zaburzony porządek analityczny. I tak naprawdę nie wiadomo, czym może się to skończyć.
Różnorodnie pojmowana jest też przydatność cyfrowych śmieci. Niektórzy specjaliści twierdzą, że to zupełnie bezsensowne pozostałości po aktywności użytkowników. Inni upatrują w nich danych, które może i byłyby przydatne, gdyby je uporządkować. Problem w tym, że obie strony inaczej widzą również funkcjonowanie Dark / Dirty Data - jedna strona twierdzi, że są to dane przetwarzane, druga - że po prostu przechowywane.
Żeby lepiej nakreślić, jak generowane są Dark Data, spróbujemy zobrazować to na przykładzie. Powiedzmy, że mamy organizację, która jest dosyć spora. Dociera do ogromnej rzeszy ludzi, setek tysięcy, a może i milionów cyfrowych odbiorców. Prężnie działa w Internecie, korzystając z mediów społecznościowych, chmur, narzędzi sieciowych wszelkiego rodzaju, posiada własne serwerownie i ogromne działy zajmujące się wyłącznie obecnością w sieci.
Organizacja ta generuje i analizuje ogromne ilości danych. Najróżniejszych danych, z racji jej globalnego zasięgu. Dane te możemy podzielić na trzy główne grupy: takie, o których nawet nie wie, że je gromadzi; takie, o których gromadzeniu wie, ale nie umie ich przetworzyć; oraz takie, które gromadzi z premedytacją i potrafi je analizować czy przetwarzać, jednak nie robi tego ze względu na zbyt wysokie koszta. Mówiąc w jeszcze większym skrócie - to po prostu zbiory danych, których organizacja nie umie monetyzować w żaden znany sobie sposób.
Ale ta sama organizacja sama wpada na inne dane - Dirty Data. Te są już o wiele groźniejsze, bo stanowią cyfrową enigmę. Powstają głównie na skutek działań w mediach społecznościowych, w szczególności na Facebooku. Każdego dnia w ciągu minuty użytkownicy błękitnego serwisu generują - uwaga - 2 460 000 treści. Tak przynajmniej wynika z analiz przeprowadzonych przez DOMO. Problem w tym, że dane te nie są w żaden sposób wartościowe. Ponad 50% tworzonych jest przez boty, spamerów i celebrytów. Kolejne 23% to zatrudnieni przez konkurencyjne firmy trolle, a 11% stanowią nieaktywne konta. Tak powstałe dane zaburzają ogólny odbiór danych sieciowych, wprowadzając w błąd całe zastępy marketingowców i analityków.
Mamy impas. Organizacja posiada globalny zasięg, swoje działania w sieci opiera w dużej mierze na analizach danych, a okazuje się nagle, że te analizy są niewiele warte. Chyba że wykorzysta specjalne narzędzia, służące do oddzielania Dirty Data od Big Data. W Polsce można uruchomić chociażby BehavioralEngine, narzędzie zbierające dane z przeszło pół miliona stron internetowych, dzięki czemu analizuje 40 mln profili Internautów i przetwarza je na podstawie ponad 5 tysięcy unikalnych atrybutów. Dzięki temu jest w stanie określić, czy dana treść pochodzi od bota, czy żywej osoby.
Co pocieszające, problem zdaje się nie dotyczyć podmiotów o niewielkim zasięgu. Przykładowo, jeśli organizacja działa jedynie lokalnie, raczej nie są jej potrzebne analizy Big Data, a więc nie wpadnie w pułapkę śmieciowych danych. Orientując się w swojej społeczności, łatwo odróżnić, czy jakieś informacje pochodzą od prawdziwej osoby oraz na ile mogą być wartościowe.
Samego istnienia Dark / Dirty Data nie można poczytywać jako przestrogi przed korzystaniem z sieci. Wręcz przeciwnie, należy nauczyć się ujarzmiać tego typu elementy, bo zapewnie pojawiać się ich będzie coraz więcej. Poza tym, o ile Dirty Data rzeczywiście jest całkowicie nieprzydatne, o tyle Dark Data można, mimo wszystko, wykorzystać na swoją korzyść. Jest to złożone, mozolne i czasochłonne, ale przyniesie efekty. Wszakże to odkrycie czegoś, co dla innych jest wciąż zacienionym polem…
Źródło: Technologie.ngo.pl