Jak ulepszyć system oceniania wniosków w NIW? Kilka refleksji eksperta
W marcu Narodowy Instytut Wolności ogłosił wyniki naboru do dwóch programów, NOWEFIO i PROO, w których oceniałem wnioski. Doświadczenie to skłoniło mnie do refleksji – zarówno na temat samego systemu ocen, jak i roli ekspertów. Wcześniej oceniałem setki wniosków w prywatnych fundacjach w Polsce i za granicą. Chciałem zobaczyć, jak wygląda to „od środka” w polskim systemie publicznym.
Nie będę komentować omawianych w mediach ocen ekspertów, choć niektóre z nich wzbudziły zasadną dyskusję o wiedzy i kompetencjach oceniających. Skupię się na samym procesie oceny i współpracy z ekspertami z nadzieją, że ten głos pozwoli ulepszyć procedury w samym NIW.
Eksperci są różni – potrzeba standaryzacji ocen
Pewnie wielu czytelników pamięta ze szkoły surowego nauczyciela lub nauczycielkę. Nawet świetne przygotowanie do lekcji pozwalało zdobyć najwyżej czwórkę z plusem. Szóstek nauczyciel w ogóle nie stawiał. Rzutowało to na końcową średnią ocen. Kilku surowych nauczycieli mogło nawet pozbawić dobrego ucznia czerwonego paska. Ale był też inny, łagodny nauczyciel, u którego można było być naprawdę słabo przygotowanym, by dostać czwórkę. Sypały się za to piątki i szóstki. Ludzie są różni i podobnie jest z ekspertami NIW.
W obecnym systemie końcowa punktacja wniosku to po prostu suma ocen dwóch ekspertów. Problem w tym, że niektórzy są z natury „łagodni” i hojnie rozdają piątki z plusem i szóstki, a inni mają bardziej rygorystyczne podejście. Taka różnica może decydować o tym, czy organizacja dostanie środki, czy nie. Czy to sprawiedliwe? Nie do końca.
Można to rozwiązać, korzystając z matematycznych metod standaryzacji ocen – na przykład Z-score lub inne metody normalizacji. Wtedy system mógłby uwzględnić „łagodność” lub „surowość” eksperta, a wynik końcowy byłby bardziej obiektywny. Choć końcowa ocena mogłaby być mniej zrozumiała dla laików, to byłaby mniej zależna od osobowości oceniającego.
Warto też – choćby do celów badawczych – dodać do formularza, który wypełniają eksperci, pytanie: Czy, gdyby decyzja zależała tylko od Ciebie, przyznałbyś środki temu projektowi? Takie pytanie pojawia się w systemie oceny w jednej ze znanych mi zagranicznych, prywatnych fundacji. Ciekawym wnioskiem dla NIW będzie zestawienie tych odpowiedzi z ocenami ekspertów. Ilu z nich to „surowi nauczyciele”, którzy dając ocenę 85/100 są przekonani, że jest ona bardzo wysoka i docenia wnioskodawców? Tymczasem taka ocena znacząco ogranicza szanse na środki w wielu programach, nawet jeśli drugi, „łagodny nauczyciel”, przyzna 100/100. Jednocześnie dopiero rozbieżność przekraczająca 30 punktów sprawia, że wniosek ocenia trzeci ekspert.
Nawet najdoskonalsze kryteria przyznawania ocen cząstkowych, wskazujących za co można odejmować punkty, nie rozwiążą problemu różnych osobowości sprawdzających. Może je pomóc rozwiązać matematyka.
Dodatkowo, w ramach procesu uczenia się i kalibracji samych ekspertów, warto przekazywać im informacje zwrotne o tym, jak dane wnioski ocenił drugi ekspert (anonimowo) i jak ich oceny kształtowały się na tle innych oceniających, czy byli „surowi”, czy może „łagodni”?
Kto ocenia? Pytania o jakość ekspertów
W debacie publicznej pojawiają się pytania o kwalifikacje osób oceniających wnioski. Niektóre kontrowersyjne opinie, np. podważanie zdolności organizacji do realizacji projektów, które wcześniej realizowała z sukcesem, wzbudzają wątpliwości.
Warto przyjrzeć się procesowi rekrutacji ekspertów. Czy proces rekrutacji i szkolenia ekspertów jest optymalny? Czy ktoś monitoruje jakość ich pracy w kolejnych edycjach konkursów, w których biorą udział i jakie narzędzia do tego służą? Czy w ewaluacji ocen ilościowych ekspertów można zastosować narzędzia statystyczne, a w ocenie uzasadnień narzędzia AI? W ten sposób można wykrywać różne anomalie, które powinny podlegać ocenie przez człowieka, a następnie stanowić podstawę do decyzji o kontynuacji współpracy z ekspertem w przyszłości.
To już rzecz drobna, ale dlaczego wielu ekspertów nie przekazało początkowo swoich biogramów na stronę NIW, mimo że mieli taki obowiązek (w plikach pobranych ze strony NIW 20 marca są braki, obecnie listy ekspertów zostały już zaktualizowane o wszystkie biogramy)?
Inne pytanie, to czy zdalny test online, który łatwo „przepuścić” przez ChatGPT, to dziś najlepszy sposób weryfikacji kandydatów? Tak – sam wklejałem każde pytanie zamknięte do ChataGPT i sprawdzałem, czy odpowiedź jest zgodna z tym, co sam bym wskazał na podstawie przeczytanych regulaminów i ustawy. W teorii samo AI to za mało, by zdać test, bo druga część egzaminu polegała na dokonaniu przykładowych ocen. Ale pytanie, jak wyglądał proces oceniania tej części w NIW? Co w takiej przykładowej ocenie eliminowało kandydata z procesu rekrutacji?
Sadzę, że można ulepszyć proces rekrutacji, szkolenia i ewaluacji pracy ekspertów i tu także pomocne mogą być narzędzia matematyczne i sztuczna inteligencja, bo przecież NIW nie ma zasobów, by sprawdzać wszystko korzystając wyłącznie z pracowników.
Konkursy NIW nie mają trybu odwoławczego, ale być może przydałaby się jakaś ścieżka zgłaszania wątpliwości do uwag ekspertów. Te zgłoszenia mogłyby następnie podlegać ocenie – także z wykorzystaniem nowych technologii.
Zbyt szerokie kategorie tematyczne
W jednym konkursie oceniamy organizacje charytatywne, pomocowe, edukacyjne i te zajmujące się demokracją czy prawami człowieka. To bardzo różne obszary – nie tylko pod względem merytorycznym, ale też budzą różne emocje. Choć w wytycznych dla ekspertów, na przykład w programie PROO, możemy przeczytać, że „w toku oceny merytorycznej działalność wnioskodawcy nie powinna być wartościowana”, a „oceniający nie powinien ulegać znajdującym się we wniosku emocjonalnym przekazom”, to tak duża różnorodność tematyczna nie ułatwia tego zadania.
Czy można porównać projekt pomagający osobom z niepełnosprawnościami z kampanią na rzecz uczciwych wyborów? Z pewnością chory człowiek wzbudza inne emocje u oceniającego niż chora demokracja. Jak już wspomniałem eksperci to ludzie i mają różne wrażliwości.
Być może warto rozdzielić kategorie tematyczne, zachowując przy tym rozsądek i prostotę. Naturalnym podziałem wydają się działania typowo pomocowe, będące często dopełnieniem różnego rodzaju usług publicznych, a działania ideowe, dotyczące wartości takich jak demokracja, wolność czy praworządność. Minus? Trzeba będzie jakoś podzielić i tak ograniczone środki, co na pewno wywoła pytania – dlaczego tematyka X ma więcej środków niż tematyka Y.
Oceniaj przede wszystkim wniosek, ale co, gdy pojawiają się wątpliwości?
„Ekspert powinien skupić się na ocenie danych zawartych we wniosku, a nie bazować na ogólnodostępnych informacjach o organizacji”, możemy przeczytać w wytycznych dla ekspertów w programie PROO. Z jednej strony to zasadne – zapewnia równość i nie wymaga od ekspertów dodatkowego czasu. Z drugiej strony, co robić, kiedy pojawią się wątpliwości?
Organizacja chwali się we wniosku skuteczną komunikacją, ale nie podaje adresu strony www. Bez wpisania w wyszukiwarkę nie wiemy, czy jej nie posiada, czy po prostu nie wpisała. Wnioskodawca deklaruje ogromne zasięgi w mediach społecznościowych, ale nie podaje żadnych danych. Czy wtedy sprawdzić, czy mają w ogóle jakichś obserwujących? W biogramach wszystkich osób zaangażowanych w projekt pojawia się fakt posiadania dyplomu MBA w czasie, kiedy w mediach trwa dyskusja o jakości niektórych z tych dyplomów. Czy od tego powinna się zapalić ekspertowi ostrzegawcza lampka? Organizacja informuje, że niedawno zmieniła nazwę, ale nie informuje, dlaczego. Czy nie warto tego sprawdzić?
Nie mam tutaj jednoznacznego rozwiązania, choć pewne rzeczy można doprecyzować w samym wniosku. Być może lepiej poznać zasięgi organizacji w mediach społecznościowych niż analizę ryzyka, w której różne organizacje wpisują deklaracje typu „jeśli wybuchnie kolejna pandemia, to będziemy robić rzeczy zdalnie”. Może warto rozważyć możliwość zgłoszenia wątpliwości do NIW, który następnie mógłby rozstrzygać i decydować o ewentualnej zmianie punktacji, korzystając np. z jakiegoś dodatkowego panelu ekspertów.
Ocena wniosku – czy wiemy, co naprawdę działa?
Największą skarbnicą wiedzy na temat procesu oceniania wniosków jest sam NIW. Być może niektóre z rzeczy, o których napisałem w tym artykule, się dzieją i po prostu opinia publiczna powinna zostać o nich lepiej poinformowana. Ale na koniec jeszcze kilka pytań, które nasuwają mi się po udziale w procesie oceny:
- Czy kryteria oceny były kiedyś ewaluowane? Jak często to się dzieje? Jakie były w przeszłości zmiany kryteriów?
- Czy analizowano dane z poprzednich lat – za co najczęściej wnioskodawcy tracili punkty, a co oceniano najlepiej?
- Jak zrównoważyć dobrą jakość samego pomysłu i projektu ze „sztuką pisania wniosków”? Od czasu powstania NIW część organizacji nie składała tam wniosków uważając, że ze względów politycznych nie mają szans na finansowanie. Inne w tym czasie to robiły i mogły dobrze opanować umiejętność pisania wniosków i dopasowania się do kryteriów.
Chętnie poznałbym obserwacje innych ekspertów, których zachęcam do zabrania głosu.
Jednocześnie, gdybym zajmował się ekspertami w NIW, to na koniec współpracy przy każdym z programów, przesyłałbym do nich krótką ankietę. Byłoby to kolejne wartościowe źródło wiedzy dla NIW służące ulepszaniu wewnętrznych procedur. Pomocne w tym będą dane i wiedza gromadzona przez NIW, trochę matematyki i AI, a także głosy zewnętrzne – wnioskodawców, ekspertów i przedstawicieli środowiska organizacji pozarządowych.
W ocenie oceniania wniosków w NIW nie chodzi o krytykę, a o to, by instytucja działała lepiej. Nie ma idealnego systemu oceny, ale warto rozmawiać co poprawić, szczególnie, kiedy w grę wchodzi gospodarowanie środkami publicznymi.
Marek Tatała, prezes Fundacji Wolności Gospodarczej