Powstało Archiwum Społeczne Polskiego Webu

Przeglądarka Internet Explorer, której używasz, uniemożliwia skorzystanie z większości funkcji portalu ngo.pl. Aby mieć dostęp do wszystkich funkcji portalu ngo.pl, zmień przeglądarkę na inną (np. Chrome, Firefox, Safari, Opera, Edge).

Prośba o wpłatę darowizny na Twój portal ngo.pl prowadzony przez Stowarzyszenie Klon/Jawor.

Marcin Wilkowski

23 listopada 2021

● Oddolny projekt tworzenia zbioru wspierającego badania z wykorzystaniem historycznych zasobów webowych; dokumentowanie m.in. kryzysu migracyjnego, bieżących wydarzeń w polityce krajowej i pandemii koronawirusa.
● Ponad 100 tys. skatalogowanych adresów URL wyodrębnionych z ponad 4 mln tweetów.
● Dane dostępne za darmo na warunkach wolnej licencji, do swobodnego wykorzystania.
● Strona archiwum: https://aspw.pl/.

Ponad 100 tys. skategoryzowanych adresów URL i 4 mln identyfikatorów tweetów można wykorzystać bezpłatnie do celów badawczych dzięki działaniom Archiwum Społecznego Polskiego Webu (ASPW, https://aspw.pl/). Od listopada 2020 archiwum indeksuje strony internetowe linkowane we wpisach polskich użytkowników Twittera i udostępnia informacje na temat ich obecności w archiwach Webu. Zbiory archiwum dostępne są na wolnej licencji Open Data Commons Attribution License (ODC-By) i mogą być z powodzeniem wykorzystane jako otwarte dane badawcze.

ASPW respektuje przepisy prawa autorskiego i regulamin platformy Twitter, dlatego nie gromadzi i nie udostępnia treści indeksowanych stron. Udostępniane są jedynie metadane stron i identyfikatory tweetów. Identyfikatory te można wykorzystać do pobrania treści tweetów dzięki narzędziom takim jak hydrator (https://github.com/DocNow/hydrator). Równocześnie archiwa Webu (takie jak Internet Archive) pozwalają w łatwy sposób i także maszynowo wyszukiwać kopie archiwalne stron WWW po ich adresach URL. ASPW ułatwia więc badania z wykorzystaniem zasobów webowych, proponując otwartą alternatywę dla komercyjnych systemów indeksujących strony WWW i media społecznościowe.

Dane ASPW wykorzystać można w badaniach Webu, na przykład stabilności zasobów polskiej domeny (problem link rot), ale też do badań społecznych czy językowych, w których zasoby internetowe są źródłami podlegającymi analizie. ASPW zawiera też duży zbiór identyfikatorów tweetów i adresów stron dokumentujących pandemię koronawirusa.

– Zależy mi na tym, żeby ułatwić inicjowanie badań z wykorzystaniem zasobów WWW – mówi Marcin Wilkowski, założyciel ASPW. – Pierwszym problemem, na jaki natrafia osoba chcąca przygotować analizy internetowe, jest dostępność danych historycznych. ASPW publikuje je za darmo i na wolnej licencji. Ponieważ gromadzone adresy stron pochodzą z korpusu twitterowego, możemy oczekiwać, że lepiej reprezentują najważniejsze społecznie zasoby polskiego Webu niż adresy gromadzone losowo. Wykorzystanie mediów społecznościowych w budowie zasobu archiwalnego to zresztą podejście od kilku lat mocno obecne w literaturze naukowej dotyczącej archiwistyki Webu.

Inspiracją dla powstania archiwum były projekty, takie jak Common Crawl (https://commoncrawl.org/) czy HTTP Archive (https://httparchive.org/), budujące otwarty globalny indeks WWW, oraz projekt Documenting the Now (https://www.docnow.io/), którego celem jest upowszechnianie narzędzi i metod archiwizowania i badania historycznego Webu. W planach rozwoju ASPW jest udostępnianie zbiorów danych publikowanych w mediach społecznościowych przez oficjalne konta instytucji państwowych oraz testowy projekt indeksowania i archiwizacji linków z przypisów publikacji naukowych z polskich czasopism open access. Gromadzone będą także sumy kontrolne wyliczane z kodu źródłowego indeksowanych stron WWW, aby można było wychwytywać tzw. content drift, czyli zmiany w treściach dostępnych pod tym samym adresem URL.

Zasoby WWW są regularnie archiwizowane w ramach programów prowadzonych przez dziesiątki bibliotek, archiwów i instytucji pozarządowych na całym świecie. W październiku tego roku minęło 25 lat od pierwszych archiwizacji Webu, podjętych przez amerykańską fundację Internet Archive. W Polsce nie istnieją żadne programy tego typu.

Marcin Wilkowski jest programistą, pracującym w Centrum Kompetencji Cyfrowych UW i doktorantem IBL PAN, zajmującym się metodami badań historycznych polskiego Webu lat 90. W CKC UW rozwija pracownię archiwistyki webowej (webArch, https://ckc.uw.edu.pl/webarch/).

ASPW nie jest w żaden sposób finansowane, można je wspierać na Patronite (https://patronite.pl/aspw). Bieżące informacje o działaniach archiwum można znaleźć na Twitterze (https://twitter.com/ArchiwumWWW).

Dodaj informację do portalu ngo.pl!

Czekamy na Twój artykuł, komentarz, wywiad czy relację. Dotrzyj ze swoją informacją do tysięcy osób, które czytają ngo.pl.

Dodaj

Ten artykuł został dodany do portalu ngo.pl przez użytkownika, użytkowniczkę. Redakcja nie odpowiada za jego treść.

Artykuły opublikowane w portalu ngo.pl prezentują wyłącznie poglądy ich autorów, autorek. Wyrażone w nich opinie, komentarze nie muszą być tożsame z poglądami redakcji.

Przedruk, kopiowanie, skracanie artykułów (lub ich fragmentów) z portalu ngo.pl wymaga zgody redakcji.

#ToDziała

Lenistwo. Łąki to lubią [podcast]

●

Dorota Setniewska, ngo.pl
Fundacja Da Moc. Dajemy moc ludziom, by wspólnie budować lepszą przyszłość

●

Anna Mucha, Stowarzyszenie MOST
Fundacja Tacy Jesteśmy obiera kurs na rozwój i wsparcie

●

Anna Mucha, Stowarzyszenie MOST
Sieć widmo znika z Hańczy. Pierwszy fragment już na brzegu

●

Iwona Danilewicz

Zobacz wszystkie Zobacz wszystkie

Publicystyka - ngo.pl