300 dokumentów do przeczytania – jak zapanować nad tekstowymi źródłami informacji?
Wyobraźcie sobie taką sytuację: wasza organizacja jest watchdogiem, zajmuje się monitorowaniem urzędu miasta i po wielu miesiącach walki z „oporem materii” udało wam się wreszcie zdobyć upragnione 300 umów urzędu miasta z podwykonawcami z ostatnich kilku lat. Wiecie, że znajduje się w nich co najmniej kilkanaście różnych zagadnień, które warto by zbadać bliżej, z ekscytacją zasiadacie przed komputerem, na którym znajduje się folder z przekazanymi dokumentami i… ściana.
Na dysku znajduje się 300 plików PDF o nic nie mówiących wam nazwach, a jakakolwiek próba skopiowania tekstu z któregokolwiek dokumentu spełza na niczym – PDF-y zawierają zeskanowane obrazki dokumentów!
Nie brzmi zbyt optymistycznie, prawda? To wbrew pozorom dosyć częsty scenariusz w pracy monitoringowej – otrzymane dokumenty nie nadają się do obróbki, są nieuporządkowane i jest ich wiele. Jak sobie poradzić?
BARIERY
Na początek zła wiadomość: nie będzie łatwo. Pliki PDF zawierające zeskanowane obrazki dokumentów to duży problem. Niestety nie ma jednego, zawsze skutecznego sposobu na to, żeby w rozsądnym czasie i rozsądnym nakładem środków zamienić je w całości na tekst, który będzie można przeszukiwać, kopiować i organizować zawarte w nim informacje. Zawsze oczywiście mamy do dyspozycji sposób „na średniowiecznego mnicha”, czyli spędzenie co najmniej kilku tygodni na żmudnym czytaniu i analizowaniu dokumentów, ale – być może istnieją mniej mozolne metody.
Kolejne bariery nie są już tak bolesne, ale nadal wymagają określonej pracy. Będziemy chcieli przyporządkować różne charakterystyki do umów: z kim została zawarta, czego dotyczy, jakie są obostrzenia lub kary umowne dla dostawców (i czy w ogóle występują) i tak dalej. Ciekawe prawidłowości zdobędziemy nie tylko dzięki czytaniu pojedynczych umów, ale także przygotowując zestawienia wszystkich kontrahentów urzędu miasta i częstości ich występowania, analizując przedmioty umów i dokonując innych podobnych analiz. To także dosyć mozolna praca, którą trzeba będzie odpowiednio zorganizować.
Co lub kogo mamy do dyspozycji?
Musimy skorzystać z trzech zasobów, które w różnym stopniu – w zależności od kontekstu i sytuacji, w jakiej znajduje się nasza organizacja – mamy w różnym stopniu do dyspozycji. Te zasoby to:
Najlepszy efekt możemy osiągnąć starając się skorzystać ze wszystkich trzech zasobów, łącząc ich mocne strony i eliminując ich słabości. Spróbujmy rozważyć cele, jakie możemy przy ich pomocy osiągnąć oraz trzy przykładowe scenariusze.
DOKĄD ZMIERZAMY?
Pierwszym krokiem będzie opracowanie planu – co chcemy osiągnąć? Punktem pierwszym będzie w nim zapewne zamiana obrazków na tekst, żeby ułatwić dalszą analizę (ale niekoniecznie – jak pokazuje przykład scenariusza 2). Drugim będzie skatalogowanie określonych informacji z umów – dobrze jest wiedzieć z góry co nam będzie potrzebne (np. Nazwy kontrahentów? Kwota umowy?) – oczywiście wiele pomysłów może pojawić się także później, w trakcie dalszej pracy – ważne jest jednak, żeby ten proces koordynować i w miarę możliwości nie marnować energii i zasobów na katalogowanie informacji zbędnych, a skupić się tylko na tych, które przyniosą korzyści naszej analizie. Trzecim będzie ustalenie planu co do przyszłości – czy będziemy zdobywać kolejne umowy i jako organizacja potrzebujemy bardziej długoterminowego sposobu na mierzenie się z takimi wyzwaniami jak nasze 300 dokumentów? Czy też będzie to jednorazowa akcja?
Zapewne pytań, które można sobie zadać na początku jest więcej – ważne jest, żeby poświęcić chwilę czasu na opracowanie takiego planu na początku.
Scenariusz 1 – pizza, komputer i upojna noc z danymi
Zorganizuj hakaton otwartych danych! Dokumenty, które masz do dyspozycji są interesujące nie tylko dla ciebie i niewykluczone, że znajdzie się w waszym otoczeniu kilka, kilkanaście osób, które będą chciały spędzić weekend na porządkowaniu danych.
Hakaton może przyjąć wiele różnych kształtów, ale omówmy tutaj dwie ewentualności. Jeżeli uda Ci się zgromadzić osoby zorientowane technologicznie (twoje środowisko ma takie umiejętności? Może warto sięgnąć do lokalnej grupy użytkowników Linuxa?), jako cel wyznacz opracowanie prostych narzędzi, które ułatwią potem dalsze porządki. Wśród uczestników i uczestniczek na pewno pojawią się świetne pomysły na narzędzia! Jeżeli zgromadzisz osoby zainteresowane danymi, ale bez umiejętności technicznych, postaraj się przygotować proste narzędzia przed hakatonem (Formularz w Google Docs? Prosta baza w Libre Office? Szablony w arkuszu kalkulacyjnym?) – na samym spotkaniu wystarczy wtedy odpowiednio rozdzielić pracę i w mimimalnym wariancie uda wam się uporządkować przynajmniej część dokumentów, w maksymalnym cała praca zostanie wykonana w jeden weekend.
Jeżeli na hakatonie pojawi się mieszana ekipa – tym lepiej! Kluczem jest zbudowanie współpracy i odpowiednia organizacja spotkania, w większości przypadków uda się osiągnąć bardzo ciekawe efekty!
(tutaj sugestia do tłumaczenia na angielski: „#lazyweb, I can has...?”)
Ten scenariusz wymaga od twojej organizacji przeprowadzenia skutecznej akcji promocyjnej i warto go spróbować nawet niezależnie od innych sposobów. Udostępnij wszystkie dokumenty, opisz przystępnym językiem cele, jakie chcesz w związku z nimi osiągnąć i zacznij intensywnie rozprzestrzeniać informacje o przedsięwzięciu. Możesz być zaskoczony/zaskoczona odzewem – z jednej strony mogą trafić do ciebie osoby, które będą chciały wesprzeć cię umiejętnościami technicznymi, z drugiej strony część osób zacznie analizować dokumenty po prostu je czytając i będzie informować was o znalezionych ciekawostkach.
Jeżeli dodatkowo scenariusz ten zostanie wsparty odpowiednimi narzędziami, jego efektywność jeszcze wzrośnie. Może jesteś w stanie przygotować prosty formularz na stronie (znowu Google Docs?), w którym można wpisać nazwę pliku, który dana osoba przeanalizowała oraz pola na informacje, które chcesz z dokumentów wydobyć?
Zaletą tego scenariusza jest możliwość uniknięcia rozpoznawania tekstu – po prostu wiele osób będzie czytać nasze dokumenty i dostarczać nam informacji o prawidłowościach w nich znalezionych. Proces ten na pewno wymaga dobrej koordynacji i promocji – pamiętaj, samo „wrzucenie dokumentów do Internetu” raczej niewiele da.
Scenariusz 3 – długa droga przed nami
Najskuteczniejszą zapewne, ale też najdłuższą metodą będzie zaplanowanie długoterminowego projektu. Określ zasoby, jakie posiadacie w organizacji oraz w jej otoczeniu, opracuj plan działania i połącz wszystkie dostępne możliwości skorzystania z wymienionych wcześniej zasobów w jedną kampanię. Wewnątrz organizacji rozdziel pracę nad skanowaniem dokumentów, przygotowywaniem narzędzi do porządkowania danych. Zaplanuj wykorzystanie pomysłów z wcześniejszych scenariuszy jako części kampanii – włącz do działań hakatony, udostępnienie danych na zewnątrz i sięganie do społeczności technicznych i zainteresowanych danymi.
NA KONIEC – BUDUJ POTENCJAŁ
Mam nadzieję, że te kilka pomysłów na temat procesu rozwiązywania problemu wielu dokumentów pozyskanych w ramach działań waszej organizacji zainspiruje was do ich wypróbowania. Warto jest przyjąć, że tego typu sytuacje pojawią się częściej niż raz i budować potencjał organizacji do radzenia sobie ze związanymi z tym problemami. W dłuższym okresie jest niemal pewne, że będziecie potrzebować:
• społeczności osób wspierających waszą misję i chcących zaangażować się w przedsięwzięcia takie jak opisane powyżej. Dobrze, jeżeli społeczność ta zawiera w sobie również osoby potrafiące poradzić sobie z wyzwaniami technicznymi.
• wiedzy i doświadczenia na temat narzędzi informatycznych (i nie tylko! vide: hakaton, kampanie promocyjne) do radzenia sobie z wielością trudnych do analizy dokumentów, a najlepiej własnych narzędzi wypróbowanych w kilku takich sytuacjach
Po pewnym czasie i przeprowadzeniu kilku lub kilkunastu takich projektów będziecie mistrzami szybkiego wydobywania danych z przerażającej sterty niedostępnych dokumentów!
Źródło: Technologie.org.pl