Wg szacunków podawanych przez serwis Naukawpolsce.pap.pl w sieci może znajdować się nawet miliard polskojęzycznych dokumentów. Twórcy polskiej semantycznej wyszukiwarki internetowej Nekst chcą zindeksować wszystkie i ułatwić internautom naprawdę skuteczne przeszukiwanie dokumentów.
Wyszukiwarka powstaje w zespołach Instytutu Podstaw Informatyki Polskiej Akademii Nauk w Warszawie i Politechniki Wrocławskiej. W połowie roku twórcy chcą zakończyć skanowanie ponad 500 mln dokumentów – jak szacują jest to połowa polskiego internetu, na którą składają się m.in. artykuły czy pliki PDF. Będzie to pierwszy etap budowy wyszukiwarki, z czasem jej zawartość ma być aktualizowana na bieżąco. Jeden z twórców, prof. Jacek Koronacki z IPI PAN w rozmowie z serwisem Naukawpolsce.pap.pl sugeruje, że nawet Google czy Yahoo, „przy całej swojej potędze”, mogą nie mieć zindeksowanego całego polskiego internetu. Z jego wyliczeń wynika, że w ich zasobach może znajdować się jedynie co piąty dokument w języku polskim.
Prace wrą
Oba zespoły deklarują, że do chwili obecnej udało się im zebrać 160 mln polskich dokumentów, co daje ok. 16 proc. polskiej sieci. Skompresowane dokumenty zebrane przez polskich uczonych zajmują na dyskach ok. 3 terabajtów, co nie jest dużą przestrzenią sieciową i realną przeszkodą. Jak przyznaje w rozmowie z serwisem internetowym dr Dariusz Czerski z IPI PAN głównym problemem jest bieżące opisywanie i porządkowanie zasobów, by dokumenty bez większego kłopotu można było przetwarzać na potrzeby wyszukiwania. Wyzwanie jakie postawili sobie twórcy jest poważne. Globalne wyszukiwarki, takie jak Bing czy Google najczęściej przeszukują dokumenty bazując na prostych algorytmach, które sprowadzają się do badania jedynie wyszukiwanych fraz – słów kluczowych. Prof. Koronacki zauważa, że „te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka”. Ma to być pierwsza tak duża europejska wyszukiwarka semantyczna dla języka ojczystego. Twórcy zapewniają, że Nekst nie będzie wyszukiwał jedynie zadeklarowanych ciągów znaków, tylko raczej analizował gromadzone teksty pod kątem najczęściej pojawiających się w nich istotniejszych słów i wyrażeń wielosłownych (np. fraz rzeczownikowych). Ma to zapewnić jak najlepsze określenie treści tekstu i jego skuteczne sklasyfikowanie. Prof. Kornacki: „Musimy umieć budować mechanizmy rozumienia języka, które zdecydowanie różnią się od inżynierii dla języka angielskiego. Musimy zwłaszcza umieć uwzględniać fleksję i swobodny szyk zdania”.
Inteligentne mechanizmy
Twórcy opisują mechanizm stosowany w wyszukiwarce na konkretnym przykładzie. Gdy internauta zapyta wyszukiwarkę o opony, ta ujednoznaczni zapytanie i dopyta, czy użytkownik miał na myśli opony samochodowe czy może opony mózgowe. Wyświetli tym samym witryny, w których nie ma frazy „opony samochodowe”, za to znajduje się rdzeń słowa „opony” i pojawiają się inne słowa, które wskażą, że strona rzeczywiście poświęcona jest motoryzacji. Wyszukiwarka będzie rozumiała naturalny język, jakim posługujemy się na co dzień. Dodatkowo w odpowiedzi na zapytania nie będą pojawiały się jedynie odnośniki do stron, ale w przypadku dokładnych pytań powinniśmy liczyć na ujrzenie konkretnych cytatów z dokumentów. I tak przykładowo pytając o rok śmierci Kazimierza Wielkiego, możemy spodziewać się wskazania konkretnego zdania z indeksowanych dokumentów, np.: „Kazimierz Wielki zmarł w 1370 r". Na potrzeby wyszukiwarki powstaje tzw. ontologia, a więc zbiór pojęć wraz ze związkami między nimi, zbliżona do ontologii Wikipedii, a także tworzonego w ramach innego projektu słownika „Słowosieć”. Dzięki tym mechanizmom wyszukiwarka ma radzić sobie z porządkowaniem stron i wyszukiwaniem powiązań między nimi. Naukowcy ambitnie zakładają, że uda im się określić wydźwięk emocjonalny wypowiedzi. Zapytania mają być rozpoznawalne w zależności od tego czy pytamy o nie w pozytywnym czy też negatywnym charakterze. „Istnieją firmy, które taki wydźwięk starają się badać. Działają one jednak w ograniczonych warunkach. My za to będziemy mieli dostępny cały polski internet. Posiadając ogromne ilości danych jesteśmy w stanie lepiej wywnioskować, które teksty posiadają wydźwięk emocjonalny, a które są czystą informacją bez nacechowania emocjonalnego” - informuje dr Dariusz Czerski.
Plagiaty i obrazy
Naukawpolsce.pap.pl
Źródło: Technologie.ngo.pl