Walka z fake newsami jest szczególnie ważna w czasach pandemii COVID-19. Informacje bombardują nas co dzień, a selekcja tych wartościowych nie jest łatwa. Wkrótce może pomóc w tym algorytm opracowany przez polskich uczonych.
Z algorytmów wykrywających zmanipulowane lub szkodliwe treści korzystają dzisiaj giganci mediów społecznościowych, m.in. Facebook i Twitter. Niestety, mechanizmy, które są przez nich wykorzystywane są objęte tajemnicą, a zwykli użytkownicy nie mają do nich dostępu. Dzięki naukowcom z Instytutu Podstaw Informatyki PAN pod kierownictwem dr inż. Piotra Przybyły pracujących nad projektem HOMADOS może się to zmienić.
Algorytm, który uczy się sam
Zespół dr Przybyły pracuje nad innowacyjnym algorytmem, który skupiałby się nie tylko na prawdziwości faktów podanych w treści, ale i stylowi tekstów udostępnianych online – zarówno w formie newsów, jak i postów w mediach społecznościowych.
– Chcemy sprawdzić, jaka będzie wydajność oceny wiarygodności dokumentu na podstawie cech czysto stylistycznych – wyjaśnia dr inż. Piotr Przybyła.
Celem naukowców jest nie tylko wykrywanie fake newsów, ale także innych form zmanipulowanych treści i technik propagandowych. Algorytm ma również walczyć z botami.
Podstawą algorytmu są dane pochodzące z dużej bazy anglojęzycznych tekstów (ok. 100 000), wywodzących się m.in. od organizacji zajmującej się weryfikacją faktów. Wykorzystując uczenie maszynowe, algorytm jest w stanie rozróżniać teksty wiarygodne od niewiarygodnych.
– Nasz model w pewnym sensie uczy się sam. Podajemy dane wejściowe z określonym etykietowaniem i cechy, które opisują te dane. Do algorytmu należy podjęcie decyzji dotyczącej powiązania cech z wiarygodnością – mówi dr inż. Przybyła.
Algorytm za treści wiarygodne określił np. informacje stacji BBC. Naukowcy nie chcieliby jednak, by za prawdziwe były uznawane tylko te newsy, które zostały napisane w stylistyce konkretnego nadawcy.
Styl równie ważny, co treści
Okazuje się, że wiele niewiarygodnych tekstów w anglojęzycznych mediach dotyczy polaryzacji politycznej w USA. W wielu z nich pojawiają się nazwiska byłego prezydenta Baracka Obamy i ustępującego Donalda Trumpa. Aby algorytm działał lepiej, konieczne jest ręczne „uczulenie” go na pomijanie podejrzanych słów.
Twórcy narzucili algorytmowi kategorie słów, które powinien uwzględniać, by łatwiej dało się kontrolować jego działanie. Pod uwagę wzięto trzy główne kategorie stylistyczne informacji niewiarygodnych. Do pierwszej należą słowa opisujące osąd i dotyczące wartości moralnych. Do drugiej zaliczamy słowa opisujące władze, szacunek i wywieranie wpływu. Trzecia grupa to słowa silnie nacechowane emocjami – zarówno pozytywnymi, jak i negatywnymi.
To tylko wierzchołek góry lodowej, bo uczeni wyróżnili ponad 900 cech, którymi kieruje się algorytm.
Zespół dr inż. Przybyły skupił się na testowaniu algorytmu dla języka angielskiego, bo pozwala na łatwiejszy dostęp do dużej liczby sprawdzonych danych. Dopiero w dalszej kolejności będzie można stworzyć analogiczny algorytm dla innych języków – także polskiego.
Wciąż wiele do poprawy
Obecnie skuteczność algorytmu wynosi 80-90%, ale to nie satysfakcjonuje twórców. Wciąż trwają prace nad jego ulepszeniem. Kolejnym etapem projektu mają być testy na użytkownikach Internetu. Wciąż nie wiadomo, jak algorytm będzie wpływał na postrzeganie wiarygodności treści przez człowieka.
Projekt HOMADOS opracowany przez zespół dr inż. Przybyły jest finansowany przez Narodową Agencję Wymiany Akademickiej w ramach „Polskich Powrotów”.