9 marca obchodzony był dzień statystyki. Z tej okazji warto zastanowić się nad tym, dlaczego badania statystyczne tak mocno zakorzeniły się w naszej codzienności, czy warto polegać na tego typu obliczeniach i gdzie statystyka się gubi. Przyjrzyjmy się więc historii samej dziedziny oraz trzem darmowym narzędziom do analizy ruchu sieciowego.
Termin „statystyka” w znaczeniu, w jakim używamy go dzisiaj, pochodzi z języka niemieckiego. „Statistik” oznacza dosłownie „badanie faktów i osób publicznych” – a wywodzi się od łacińskiego terminu „statisticus”, czyli „dotyczący polityki”. Jako dziedzina nauki, statystyka zajmuje się metodami pozyskiwania, analizy i prezentacji danych opisujących zjawiska, najczęściej masowe. Statystyka posługuje się eksperymentem oraz obserwacją, wykorzystywanymi do potwierdzania postawionych teorii. Schemat wygląda zazwyczaj podobnie: zbieranie dużych ilości danych –> analiza –> interpretacja. Do tego potrzebne są narzędzia, niezbędne przy operowaniu dużymi zbiorami informacji. I tworzenie takich narzędzi nazywamy właśnie statystyką.
Pierwszymi badaniami statystycznymi były prawdopodobnie spisy powszechne, a pierwszy z nich datowany jest na czasy mojżeszowe. Również w starożytnym Rzymie spisy powszechne były dosyć regularną praktyką, tam też wykorzystywano je już w celach polityczno-społecznych, bo miały na celu poznanie pewnych tendencji panujących wśród społeczeństwa i odpowiednie dopasowanie stylu zarządzania do potrzeb i oczekiwań.
Do połowy XIX wieku statystyka wykorzystywana była właściwie wyłącznie do badania zagadnień związanych ze stanem państwa. Ale kiedy tempa nabrał rozwój matematyki, głównie teorii prawdopodobieństwa, statystyka zaczęła przechodzić metamorfozę. Uświadomiono sobie chociażby to, że jednym z podstawowych atrybutów badań statystycznych jest losowość wynikająca ze zróżnicowanych wielkości, jakie są badane. Weźmy np. badania dotyczące ogólnego stanu ludzkiego organizmu – każdy z badanych jest inaczej uwarunkowany genetycznie, stosuje inną dietę, żyje w innym środowisku (chodzi nie tylko o środowisko naturalne, ale i społeczne) etc., a wśród wszystkich takich czynników również istnieje losowość. Tutaj statystyka zazębia się z mechaniką kwantową, w myśl której na pewnym poziomie obserwacji każde zjawisko nabiera charakteru losowego. Wiele do powiedzenia ma również teoria prawdopodobieństwa, dział matematyki pozwalający na radzenie sobie z niepewnością – oczywiście jeśli chodzi o dane.
Istota statystyki
„Jeśli mój sąsiad codziennie bije swoją żonę, ja zaś nie biję jej nigdy, to w świetle statystyki obaj bijemy je co drugi dzień” – powiedział kiedyś George Bernard Shaw, irlandzki pisarz, noblista z 1925 roku. Sęk w tym, że Shaw, podobnie jak większość ludzi, nie rozumiał istoty statystyki. Nauka ta nie zajmuje się porównywaniem jednostek, albo wyciąganiem uśrednianych wyników na podstawie mikroskopijnych ilości danych. Do prawidłowego działania, statystyka potrzebuje ogromnych danych pochodzących z jednorodnych zbiorowości, opartych na przynajmniej setkach, a najlepiej milionach obserwacji. Oczywiście statystyka jest nauką na tyle niejednoznaczną, że bardzo często ulega manipulacji ze strony tych, którzy opracowują i przeprowadzają badania. Najprostszy przykład? Rankingi. Opracowywane są zazwyczaj – w myśl informacji – na podstawie badań statystycznych. Sęk w tym, że wynikiem takich badań jest zestawienie w postaci tabeli, wykresu lub diagramu. Ale nigdy ranking.
„Statystyka to matematyczny kamuflaż błędu” – tak podsumował tę szczególną dziedzinę francuski socjolog i ekonomista, Georges Elgozy. Miał w tym wiele racji. Matematyka nie poradziłaby sobie z analizą takiej ilości danych, często wzajemnie sprzecznych, dlatego właśnie do przetwarzania zebranych w badaniach statystycznych informacji wykorzystuje się teorię prawdopodobieństwa, dlatego też statystyki nie są nigdy w pełni miarodajne. O ile w przypadku badania, czy statystycznie więcej osób pije napoje gazowane, wodę mineralną czy herbatę, można pokusić się o stwierdzenie, że przedstawione wyniki nie będą zafałszowane, o tyle badanie mające stworzyć obraz „statystycznego obywatela państwa X” są zupełnie bez sensu. Bo ktoś taki najzwyczajniej w świecie nie istnieje.
Statystyki są dzisiaj wykorzystywane na szeroką skalę w świecie cyfrowym, bo na ich podstawie można kreować komunikację i trendy. Właściwie każdy serwis społecznościowy oferuje mniej lub bardziej złożone raporty dotyczące aktywności użytkowników, ilości kliknięć, lajków, najczęściej wyświetlanych treści, etc. Niezbędnym narzędziem jest również platforma Google Analytics – zaawansowane narzędzie do badań statystycznych nad naszą stroną www. Usługa ta, pomimo operowania na danych ściśle mierzalnych – ma swoje wady.
Analizuj z Analitycsem
Wszystkie sieciowe narzędzia opierają się w większym lub mniejszym stopniu na algorytmach. W przypadku witryn internetowych algorytmem będzie już samo działanie użytkownika, który musi w określony sposób wykonać pewne czynności, aby otrzymać upragniony rezultat. Zatem żeby np. przeczytać artykuł na portalu Technologie.ngo.pl, musimy wpisać adres strony, kliknąć w tytuł artykułu i potem przewijać treść w dół. Tak też implementowane są owe „statystyczne zachowania”, na bazie których programy typu Analyticsa zbierają dane o zachowaniach użytkowników.
Z drugiej strony, ciężko mówić tu o jakiejś rozbudowanej statystyce – zebranie danych o stałych wartościach (odwiedziny, kliknięcia, etc.) i zestawienie ich w diagramie nie jest niczym skomplikowanym, wymaga jedynie ogromnych mocy przerobowych. No i nie da się uniknąć błędów, a najśmieszniejszym z nich jest ruch mobilny. Otóż zdecydowana większość tegoż najczęściej pochodzi z województwa mazowieckiego. I nie wynika to bynajmniej z tego, że mieszkańcy Warszawy masowo odwiedzają wszystkie możliwe witryny. Po prostu zdecydowana większość sygnału komórkowego przechodzi przez znajdujące się w stolicy centrale przekaźnikowe. Ot, magia statystyki.
Statystyka w mediach społecznościowych
Tego typu dane możemy zobaczyć również na Facebooku. Jeśli jesteśmy administratorami fanpage’a, mamy dostęp do zakładki „Statystyka”. Tam możemy zobaczyć zasięgi poszczególnych postów, ilość polubień, aktywności, etc. Co prawda również ciężko mówić w tym przypadku o złożonych działaniach matematycznych – Facebook przedstawia nam suche cyfry. Są to dane bez głębszych analiz – ale można uznać to za swoistą statystykę działania naszego fanpage’a. I warto w te liczby zaglądać, bo wiele mówią o tym, jak funkcjonuje nasza strona. To istotne informacje, na podstawie których można planować działania i analizować to, jak nasi odbiorcy reagują na podejmowane przez nas aktywności.
Podobne analizy otrzymamy na Twitterze – pod adresem Analytics.twitter.com możemy przejrzeć statystyki dotyczące naszego konta. Znajdziemy tu dane analogiczne do tych, jakie przedstawia nam Facebook. I analogicznie powinniśmy je wykorzystywać do poprawy naszej komunikacji z odbiorcami. Twitter nie jest może najpopularniejszym medium społecznościowym w Polsce, ale ma swój potencjał, który odpowiednio zaprzęgnięty do pracy przyniesie korzyści.
Statystyka jak bikini
„Jedna śmierć to tragedia, milion – to statystyka”, napisał w „Czarnym obelisku” Erich Maria Remarque. To prawda. Im większe dane badamy pod kątem statystyki, tym bardziej zaburzony obraz otrzymamy. Wraz ze wzrostem zbioru danych, zwiększa się losowość wyników. Dlatego najbardziej reprezentatywne grupy, jakie wykorzystuje się w badaniach statystycznych, liczą zazwyczaj kilkanaście lub kilkadziesiąt tysięcy badanych, a nie miliony. Prosty przykład – nawet w spisie powszechnym nie biorą udziału wszyscy mieszkańcy danego kraju, a jedynie losowo wybrana grupa.
Najlepszym podsumowaniem tego, czemu do wszelkich badań statystycznych należy podchodzić ostrożnie, może być cytat z Aarona Levensteina, ekonomisty, wykładowcy Baruch University: „Statystyka jest jak kostium bikini: pokazuje wiele, ale nie pokazuje najważniejszego”. Bo najważniejsze są konkrety, a nie przypuszczenia.
Dlaczego zatem korzystamy ze statystyk? Odpowiedź jest prosta – ułatwiają one określenie pewnych ogólnych zachowań. Trendów. Potrzeb, nie w rozumieniu potrzeb jednostki, ale raczej potrzeb rynkowych. Statystyka została sprowadzona do roli biznesowego narzędzia, które jest jednym z kluczowych elementów kreowania globalnych zachowań. W 2012 roku firma Strategy Analytics ogłosiła, że na świecie jest 7 miliardów smartfonów. A więc, czysto teoretycznie, każdy jest w posiadaniu tego urządzenia. Tylko czy ktokolwiek naprawdę wierzy, że w Indiach, Korei Północnej czy biednych rejonach Afryki ta statystyka ma pokrycie w rzeczywistości…?
Levenstein: Statystyka jest jak kostium bikini: pokazuje wiele, ale nie pokazuje najważniejszego…
Źródło: Technologie.ngo.pl