Praca z danymi w organizacji – dane są najważniejsze [cz. 3]
W poprzednich dwóch częściach cyklu opowiedziałem, po co pracować z danymi i jak zorganizować proces eksploracji danych oparty na metodyce School of Data. Przyszedł czas, aby dopełnić obrazu całości i prześledzić krok po kroku sedno całej ekspedycji, czyli już bardzo konkretną pracę na danych.
Zwróćcie uwagę, że w dalszej części tekstu często wspominam o „technicznym” sposobie na pozyskanie, oczyszczenie lub przekształcenie danych nie pisząc o szczegółach. Wynika to przede wszystkim z potrzeby ograniczenia objętości tego tekstu – nie uda mi się opisać wszystkich możliwych sposobów (a jest ich wiele!) na przeprowadzenie tych operacji, jednakże warto wiedzieć, że takie działania są możliwe. W zespole, w którym pracujemy na pewno znajdzie się osoba, która będzie miała odpowiednie umiejętności pozwalające na znalezienie odpowiedniego narzędzia i dopasowanie go do potrzeb konkretnej sytuacji. Nawet jeżeli nikt nie jest w stanie przeprowadzić takiej operacji – mamy w takim przypadku jasno zidentyfikowaną potrzebę sięgnięcia po poradę osób z zewnątrz – i warto to zawsze zrobić!
Pozyskiwanie danych
Pierwszym krokiem jest zawsze pozyskanie danych, na których będziemy pracować. Poprzez pozyskiwanie rozumiemy wyszukiwanie źródeł danych, uzyskiwanie do nich dostępu lub też – czasami – wytwarzanie tych danych samodzielnie, poprzez przeprowadzenie ankiet lub obserwacji. Doskonałym źródłem danych jest też oczywiście Internet. Ze względu na ograniczony zakres tego artykułu, rozważmy kilka najpopularniejszych źródeł danych dostępnych w Internecie.
Najłatwiejszą i najmniej pracochłonną metodą pozyskania danych, pozostającą w zasięgu każdej osoby o przynajmniej podstawowych umiejętnościach korzystania z komputera jest znalezienie (przy pomocy wyszukiwarki) i ściągnięcie z Internetu plików zawierających interesujące nas liczby i fakty. Często zdarza się, że różne organizacje, instytucje i firmy publikują dane w formie gotowej do dalszej obróbki, na przykład w postaci plików CSV lub plików arkuszy kalkulacyjnych (Microsoft Excel lub Open Office Calc). Przydatnym trickiem jest tutaj ograniczenie wyników wyszukiwania do plików określonego typu (na przykład w wyszukiwarce Google służy do tego komenda „filetype”, szukamy na przykład frazy: „bezrobocie województwo filetype:xls”).
Metod pozyskiwania danych jest oczywiście więcej – jeżeli mamy w zespole osoby o odpowiednich kompetencjach, na pewno poradzą sobie ze znalezieniem kolejnych. Na zakończenie drobne ostrzeżenie: dane pozyskane z Internetu należy oczywiście zweryfikować – trzeba pamiętać, że nie zawsze są aktualne lub wiarygodne. Najlepiej jest pozyskać te same dane z kilku różnych źródeł i zweryfikować ich wzajemną zgodność. Dobrze jest także upewnić się co do wiarygodności instytucji publikującej dane.
Wydobywanie
Kiedy mamy już zidentyfikowane źródła danych, musimy przekształcić je do postaci, która pozwoli nam na ich dalszą obróbkę. W przypadku prostych, niewielkich zestawów danych, które będziemy analizować przy pomocy nieskomplikowanych metod, mogą to być po prostu pliki arkuszy kalkulacyjnych. W bardziej złożonych przypadkach oraz przy większej ilości danych będziemy potrzebować bazy danych.
Zdarza się również, że znalezione dane są opublikowane w postaci plików PDF – oznacza to, że nie możemy na nich pracować bezpośrednio. W przypadku niewielkich ilości danych (na przykład tabel z kilkoma, kilkunastoma wartościami) najszybszym sposobem jest po prostu przepisanie ich do arkusza kalkulacyjnego lub innego narzędzia (uważając na pomyłki i literówki!) – jednakże takie przypadki nie są częste. Zazwyczaj w postaci plików PDF opublikowane są duże ilości danych i w takich przypadkach należy sięgnąć po umiejętności techniczne Inżynierów/ek z naszego zespołu. Wydobycie danych z pozornie niedostępnych źródeł jest w bardzo wielu przypadkach możliwe!
Czyszczenie i przekształcanie
Gdy posiadamy już odpowiedni zbiór danych i zmieniliśmy jego formę na taką, która nadaje się do dalszej obróbki, musimy zająć się ich oczyszczeniem i przygotowaniem do analizy. Ten etap zazwyczaj będzie najbardziej pracochłonny – im więcej danych zebraliśmy, tym bardziej wymagające będzie ich oczyszczenie.
Kolejną niezwykle przydatną praktyką jest tzw. deduplikacja, czyli usuwanie powtarzających się w danych rekordów. Tego typu problem pojawia się często na przykład w listach danych kontaktowych – organizacje i osoby w liście kontaktów występują kilkukrotnie (przykładowo z różnymi adresami email lub telefonami). Nie wnikając w mnogość technik i narzędzi do deduplikacji, wspomnę tylko o możliwości zastosowania arkusza kalkulacyjnego do tego celu. Nowsze wersje Excela oraz Open Office Calc zawierają funkcje, które potrafią to zrobić dwoma (no, może trzema!) kliknięciami, ale w razie braku takiej wersji, najprostszą możliwością jest posortowanie danych według kolumn, które mogą zawierać dokładnie te same wartości, a następnie – posługując się formułą – oznaczenie tych wierszy, w których pojawiają się takie same wartości. Znalazłszy w ten sposób wszystkie duplikaty, łatwo jest je wówczas wyeliminować lub połączyć (dodając na przykład dodatkową kolumnę na drugi adres email). Po szczegóły ponownie odsyłam do szerokich zasobów internetowych – łatwo jest znaleźć szczegółowe instrukcje na temat szukają w Internecie hasła „usuwanie duplikatów wierszy”.
Analiza
Analiza danych jest zadaniem znajdującym się w zasięgu każdej osoby nie obawiającej się posługiwania komputerem. Pamiętajmy – nie każda eksploracja danych musi wykorzystywać zaawansowane modele statystyczne, analizę sieciową czy przetwarzanie języka naturalnego. Większość osób z codziennego życia zna takie pojęcia jak średnia czy suma. Do tych podstawowych pojęć wystarczy dodać znajomość kilku dodatkowych prostych wskaźników statystycznych – mediany, decyli lub percentyli (sprawdźcie sami, naprawdę łatwo je policzyć i interpretować!), i już mamy w rękach podstawowe narzędzia pozwalające na inne niż do tej pory spojrzenie na dane liczbowe. Mamy do dyspozycji tekst wszystkich wystąpień sejmowych z ostatniej kadencji (patrz: sejmometr.pl)? Możemy stosunkowo łatwo przeprowadzić analizę częstości występowania słów w tych wystąpieniach, żeby dowiedzieć się, jak zagadnienie, którym się zajmujemy, jest traktowane przez polityków, lub dowiedzieć się, z jakimi innymi słowami najczęściej współwystępują. Wystarczy poszukać w internecie hasła „word frequency counter” i mamy do dyspozycji co najmniej kilka narzędzi, które przygotują dla nas taką statystkę – którą już oczywiście samodzielnie trzeba będzie zinterpretować.
Prezentacja
Przeszliśmy długą drogę – od pozyskania, wydobycia i oczyszczenia danych, poprzez ich analizę – nadszedł czas na część najprzyjemniejszą: wizualizację efektów! To – wbrew pozorom – niezwykle ważny etap. Nawet najciekawsze wnioski pozyskane z danych nie będą przydatne dla szerszego grona odbiorców i odbiorczyń, jeżeli nie będą zaprezentowane w zrozumiały i atrakcyjny sposób. Nie wystarczy po prostu ogłosić wniosków, dobrze jest zaprezentować także swój ciąg rozumowania, być może przedstawić więcej informacji niż tylko końcowe znaleziska.
Pamiętajcie – nawet jeżeli nie ma z wami grafika/graficzki, a wy nie poczuwacie się do posiadania talentu w zakresie estetyki wizualnej – nadal warto jest zmierzyć się z wizualizacją danych. Po pierwsze, wiele sposobów wizualizacji jest dostępnych od ręki – wspomniana wcześniej wizualizacja przestrzenna lub też zwykłe wykresy w arkuszu kalkulacyjnym. Po drugie, praca nad schematem końcowej infografiki lub odkrywanie zależności, które warto zaprezentować naszej grupie docelowej, jest również okazją do tego, by odkryć ciekawe zależności i fakty w danych, z którymi pracujemy.
Podsumowanie
Niniejszym, ogłaszam naszą ekspedycję po danych za zakończoną! Jeżeli przebrnęliście/przebrnęłyście przez opis wszystkich etapów tej wyprawy, to nadszedł dobry moment, żeby zastanowić się – gdzie w działaniach waszej organizacji lub w prowadzeniu waszej kampanii można zastosować całość lub przynajmniej część tego procesu. Waszej ocenie pozostawiam decyzję – jak wiele z opisanych elementów chcielibyście/chciałybyście zastosować w swojej pracy. Ze swojej strony mogę zachęcić was kilkoma stwierdzeniami, w które osobiście mocno wierzę:
Przekaz oparty na dowodach pozyskanych w wyniku analizy danych jest prawie zawsze bardziej wiarygodny i trudniejszy do podważenia.
Decyzje oparte na solidnej analizie twardych danych częściej okazują się trafne.
Droga jaką przebywamy analizując fakty i liczby dotyczące różnych zagadnień jest rozwijająca – daje odpowiedzi, ale także rodzi nowe pytania, podsuwa nowe tezy, rozwija umiejętności i poszerza wiedzę.
Jeżeli chcecie sprawdzić, czy te twierdzenia są bliskie również wam, wybierzcie się na ekspedycję. Powodzenia!
Źródło: Technologie.org.pl