Wyszukiwarka Nekst precyzyjnie przeszuka polskie dokumenty

Przeglądarka Internet Explorer, której używasz, uniemożliwia skorzystanie z większości funkcji portalu ngo.pl. Aby mieć dostęp do wszystkich funkcji portalu ngo.pl, zmień przeglądarkę na inną (np. Chrome, Firefox, Safari, Opera, Edge).

Prośba o wpłatę darowizny na Twój portal ngo.pl prowadzony przez Stowarzyszenie Klon/Jawor.

Publicystyka

Wyszukiwarka Nekst precyzyjnie przeszuka polskie dokumenty

(oprac. red.)

13 stycznia 2014

Wg szacunków podawanych przez serwis Naukawpolsce.pap.pl w sieci może znajdować się nawet miliard polskojęzycznych dokumentów. Twórcy polskiej semantycznej wyszukiwarki internetowej Nekst chcą zindeksować wszystkie i ułatwić internautom naprawdę skuteczne przeszukiwanie dokumentów.

Wyszukiwarka powstaje w zespołach Instytutu Podstaw Informatyki Polskiej Akademii Nauk w Warszawie i Politechniki Wrocławskiej. W połowie roku twórcy chcą zakończyć skanowanie ponad 500 mln dokumentów – jak szacują jest to połowa polskiego internetu, na którą składają się m.in. artykuły czy pliki PDF. Będzie to pierwszy etap budowy wyszukiwarki, z czasem jej zawartość ma być aktualizowana na bieżąco. Jeden z twórców, prof. Jacek Koronacki z IPI PAN w rozmowie z serwisem Naukawpolsce.pap.pl sugeruje, że nawet Google czy Yahoo, „przy całej swojej potędze”, mogą nie mieć zindeksowanego całego polskiego internetu. Z jego wyliczeń wynika, że w ich zasobach może znajdować się jedynie co piąty dokument w języku polskim.

Reklama

Prace wrą

Oba zespoły deklarują, że do chwili obecnej udało się im zebrać 160 mln polskich dokumentów, co daje ok. 16 proc. polskiej sieci. Skompresowane dokumenty zebrane przez polskich uczonych zajmują na dyskach ok. 3 terabajtów, co nie jest dużą przestrzenią sieciową i realną przeszkodą. Jak przyznaje w rozmowie z serwisem internetowym dr Dariusz Czerski z IPI PAN głównym problemem jest bieżące opisywanie i porządkowanie zasobów, by dokumenty bez większego kłopotu można było przetwarzać na potrzeby wyszukiwania. Wyzwanie jakie postawili sobie twórcy jest poważne. Globalne wyszukiwarki, takie jak Bing czy Google najczęściej przeszukują dokumenty bazując na prostych algorytmach, które sprowadzają się do badania jedynie wyszukiwanych fraz – słów kluczowych. Prof. Koronacki zauważa, że „te wyszukiwarki nie mają mechanizmów, które naśladowałyby rozumienie języka”. Ma to być pierwsza tak duża europejska wyszukiwarka semantyczna dla języka ojczystego. Twórcy zapewniają, że Nekst nie będzie wyszukiwał jedynie zadeklarowanych ciągów znaków, tylko raczej analizował gromadzone teksty pod kątem najczęściej pojawiających się w nich istotniejszych słów i wyrażeń wielosłownych (np. fraz rzeczownikowych). Ma to zapewnić jak najlepsze określenie treści tekstu i jego skuteczne sklasyfikowanie. Prof. Kornacki: „Musimy umieć budować mechanizmy rozumienia języka, które zdecydowanie różnią się od inżynierii dla języka angielskiego. Musimy zwłaszcza umieć uwzględniać fleksję i swobodny szyk zdania”.

Inteligentne mechanizmy

Twórcy opisują mechanizm stosowany w wyszukiwarce na konkretnym przykładzie. Gdy internauta zapyta wyszukiwarkę o opony, ta ujednoznaczni zapytanie i dopyta, czy użytkownik miał na myśli opony samochodowe czy może opony mózgowe. Wyświetli tym samym witryny, w których nie ma frazy „opony samochodowe”, za to znajduje się rdzeń słowa „opony” i pojawiają się inne słowa, które wskażą, że strona rzeczywiście poświęcona jest motoryzacji. Wyszukiwarka będzie rozumiała naturalny język, jakim posługujemy się na co dzień. Dodatkowo w odpowiedzi na zapytania nie będą pojawiały się jedynie odnośniki do stron, ale w przypadku dokładnych pytań powinniśmy liczyć na ujrzenie konkretnych cytatów z dokumentów. I tak przykładowo pytając o rok śmierci Kazimierza Wielkiego, możemy spodziewać się wskazania konkretnego zdania z indeksowanych dokumentów, np.: „Kazimierz Wielki zmarł w 1370 r". Na potrzeby wyszukiwarki powstaje tzw. ontologia, a więc zbiór pojęć wraz ze związkami między nimi, zbliżona do ontologii Wikipedii, a także tworzonego w ramach innego projektu słownika „Słowosieć”. Dzięki tym mechanizmom wyszukiwarka ma radzić sobie z porządkowaniem stron i wyszukiwaniem powiązań między nimi. Naukowcy ambitnie zakładają, że uda im się określić wydźwięk emocjonalny wypowiedzi. Zapytania mają być rozpoznawalne w zależności od tego czy pytamy o nie w pozytywnym czy też negatywnym charakterze. „Istnieją firmy, które taki wydźwięk starają się badać. Działają one jednak w ograniczonych warunkach. My za to będziemy mieli dostępny cały polski internet. Posiadając ogromne ilości danych jesteśmy w stanie lepiej wywnioskować, które teksty posiadają wydźwięk emocjonalny, a które są czystą informacją bez nacechowania emocjonalnego” - informuje dr Dariusz Czerski.

Plagiaty i obrazy

Nekst ma być też w przyszłości wyszukiwarką usprawniającą wykrywanie plagiatów. Koronacki informuje: „Obecnie stosowane programy antyplagiatowe przeszukują bazę prac magisterskich, czy nawet prac doktorskich, ale nie mają całego polskiego Internetu”. System ma być skuteczny nawet wtedy, gdy zmieniony zostanie szyk zdania, skopiowany dokument zostanie wzbogacony o nowe słowa, a nawet wtedy, gdy pewne wyrażenia zostaną zastąpione synonimami. Równolegle trwają też prace nad analizą obrazów. Do pewnego stopnia wyszukiwarka poradzi sobie z rozpoznaniem tego co znajduje się na ilustracjach, to wszystko dzięki dodatkowej informacji o dokumencie. Narzędzie może też być pomocne tłumaczom. Gdy zapytanie wprowadzimy w języku angielskim czy niemieckim, wyszukiwarka zwróci wyniki do witryn w języku polskim. Twórcy są otwarci na propozycje współpracy w celu popularyzacji, a nawet wprowadzania usprawnień. Nekst powstaje w ramach projektu „Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych”. Jego wartość określa się na 15 mln zł. Finansowany jest z Programu Operacyjnego Innowacyjna Gospodarka.
Naukawpolsce.pap.pl

Źródło: Technologie.ngo.pl

Podziel się:

Facebook

Twitter

Teksty opublikowane na portalu prezentują wyłącznie poglądy ich Autorów i Autorek i nie należy ich utożsamiać z poglądami redakcji. Podobnie opinie, komentarze wyrażane w publikowanych artykułach nie odzwierciedlają poglądów redakcji i wydawcy, a mają charakter informacyjny.

Prośba o wpłatę darowizny. Wesprzyj Twój portal ngo.pl prowadzony przez Stowarzyszenie Klon/Jawor

Publicystyka - ngo.pl