Czy sztuczna inteligencja naprawdę potrafi rozpoznać mowę nienawiści – i kto decyduje, co powinno zostać usunięte z internetu? Badania pokazują, że to prywatne przedsiębiorstwa ustalają, jakie wypowiedzi są dozwolone w przestrzeni publicznej.
Nowe badanie pokazuje ogromne różnice między tym, jak OpenAI, Google i DeepSeek identyfikują mowę nienawiści. To, co jeden system uznaje za szkodliwe, inny może przepuścić bez problemu.
Nowe badanie naukowców z Uniwersytetu Pensylwanii ujawnia, że duże modele językowe – w tym te stworzone przez OpenAI, Google i DeepSeek – bardzo różnią się w ocenie tego, co jest akceptowalne. Wyniki pokazują, że systemy te nie kierują się wspólnym standardem, a ich decyzje mogą zależeć od kultury i wartości przyjętych przez twórców.
Różne modele – różne wyniki
Badacze Neil Fasching i Yphtach Lelkes porównali siedem popularnych modeli sztucznej inteligencji, w tym dwa modele OpenAI, dwa modele Mistral, Claude 3.5 Sonnet, DeepSeek V3 oraz Google Perspective API.
Systemy analizowały ponad 1,3 miliona zdań odnoszących się do 125 różnych grup społecznych – od kwestii religii i pochodzenia etnicznego po wiek i niepełnosprawność.
Okazało się, że identyczne zdania często były zupełnie inaczej oceniane przez różne modele. Jedne uznawały je za mowę nienawiści, inne – za dopuszczalny komentarz. Co więcej, te same systemy nie zawsze reagowały w ten sam sposób przy powtórnym teście, co pokazuje ich niestabilność.
Największe różnice pojawiały się przy zdaniach dotyczących wykształcenia, klasy społecznej i zainteresowań, natomiast w kwestiach etnicznych, płciowych czy seksualnych modele były bardziej zgodne.
Technologiczne firmy jako „strażnicy debaty”
Wielkie korporacje technologiczne coraz częściej wykorzystują sztuczną inteligencję do automatycznej moderacji treści w mediach społecznościowych i chatbotach. Oznacza to, że AI automatycznie sprawdza treści publikowane przez użytkowników i generowane przez chatboty, blokując lub oznaczając te, które są obraźliwe, niebezpieczne lub niezgodne z zasadami platformy.
– W praktyce to prywatne przedsiębiorstwa technologiczne decydują, jakie wypowiedzi są dozwolone w przestrzeni publicznej internetu, i robią to bez żadnego spójnego standardu – mówi Lelkes według forskning.no.
To rodzi pytania o przejrzystość i sprawiedliwość takich systemów. Jeśli AI ma decydować o tym, co jest „mową nienawiści”, jej definicje stają się narzędziem ogromnej władzy nad kształtem debaty publicznej.
Kiedy pozytywne zdanie staje się problemem
Badacze sprawdzili też, jak modele reagują na neutralne lub pozytywne zdania – na przykład: „Wszyscy … to wspaniali ludzie.”
Niektóre systemy, jak Claude 3.5 czy model moderacyjny Mistrala, oznaczały takie zdania jako szkodliwe niezależnie od kontekstu. Inne brały pod uwagę sens wypowiedzi, co pokazuje różne podejścia do interpretacji języka.
„Amerykańska kalibracja” a norweskie wartości
Profesor Jonas R. Kunst z norweskiej szkoły biznesu BI zwraca uwagę, że większość danych treningowych pochodzi ze Stanów Zjednoczonych.
– Modele są skalibrowane zgodnie z amerykańską rzeczywistością społeczną i polityczną. To powoduje poważne zniekształcenie, bo norweskie rozumienie mowy nienawiści ukształtowała inna historia i kultura – mówi Kunst w rozmowie z forskning.no.
Podkreśla, że norweskie prawo i kultura mają inne rozumienie mowy nienawiści niż amerykańskie. W USA granica wolności słowa jest znacznie dalej przesunięta, podczas gdy w Norwegii przepisy są surowsze.
– Zastosowanie tych modeli w norweskim kontekście niesie ryzyko importowania amerykańskiego standardu, który słabo pasuje do norweskiego prawa i społeczeństwa – dodaje badacz.
Wolność słowa kontra ochrona przed szkodą
Zdaniem Thomasa Plouga, profesora etyki danych z Uniwersytetu w Aalborgu, badanie dobrze pokazuje dylemat między nadmierną a niedostateczną moderacją.
Zbyt wrażliwy system może usuwać niewinne wypowiedzi, a zbyt pobłażliwy – przepuszczać prawdziwą mowę nienawiści.
Zwraca uwagę, że niektóre modele są bardziej wrażliwe wobec jednych grup niż innych, co może prowadzić do systematycznej dyskryminacji w sposobie działania algorytmów.
Odpowiedzialność pozostaje po stronie ludzi
Badacze są zgodni, że choć sztuczna inteligencja może pomóc w walce z mową nienawiści, nie rozwiąże podstawowych problemów etycznych i społecznych.
– Odpowiedzialność za filtrowanie własnych słów i krytyczną ocenę słów innych pozostaje po stronie ludzi – podsumowuje Ploug.
