Twoje AI jest bardziej „ludzkie”, niż myślisz. Niestety, przejęło od nas trybalizm. Ale jest na to szczepionka

imagazine.pl 2 miesięcy temu

Marzyliśmy o sztucznej inteligencji, która będzie bezstronnym sędzią. Tymczasem najnowsze badania pokazują, iż modele GPT czy DeepSeek zachowują się jak ludzie: faworyzują „swoich” i dystansują się od „obcych”. Mamy jednak dobrą wiadomość: znaleziono metodę, by ten cyfrowy plemienizm wyleczyć.

AI dzieli nas na „My” i „Oni”

Badacze wzięli na warsztat modele dostępne na rynku w połowie ubiegłego roku (w momencie rozpoczęcia badań). Wyniki są niepokojące. Modele te wykazują silną tendencję do tzw. faworyzacji grupy własnej (ingroup bias).

Gdy zapytasz AI o grupę społeczną, z którą model (lub jego dane treningowe) się utożsamia, język jest cieplejszy, bardziej empatyczny i pozytywny. Gdy mowa o grupie „obcej” (outgroup), ton staje się chłodniejszy, bardziej krytyczny, a czasem wręcz wrogi. To nie jest błąd w kodzie. To lustrzane odbicie ludzkiej natury, na której te modele były trenowane.

Kubły zimnej wody od twórców Claude’a. Raport Anthropic obnaża prawdę o tym, jak (nie) radzimy sobie z AI

Dlaczego to niebezpieczne?

Problem wykracza poza teoretyczne dywagacje. Wyobraź sobie system AI, który:

Moderuje treści: może łagodniej traktować hejt ze strony jednej grupy politycznej, a surowiej karać drugą.
Pisze maile: może nadać agresywny ton wiadomości, jeżeli w prompcie pojawi się etykietka tożsamościowa, której „nie lubi”.
Podsumowuje newsy: może subtelnie manipulować wydźwiękiem artykułów w zależności od tego, kogo dotyczą.

Badanie wykazało, iż „celowane prompty” (np. kazanie AI wcielić się w konkretną rolę polityczną) potrafią zwiększyć negatywny wydźwięk wobec „obcych” choćby o 21%.

ION: szczepionka na uprzedzenia

Najważniejszą częścią tego raportu nie jest jednak diagnoza, ale lekarstwo. Zespół badawczy opracował metodę nazwaną ION (Ingroup-Outgroup Neutralization).

To technika treningowa, która łączy fine-tuning (dostrajanie) z optymalizacją preferencji, aby wymusić na modelu równe traktowanie obu stron. Wyniki są imponujące: zastosowanie ION zredukowało różnice w sentymencie między grupami choćby o 69%. To dowód na to, iż stronniczość AI nie jest fatum, z którym musimy żyć. To błąd inżynieryjny, który da się naprawić – o ile firmy takie jak OpenAI czy Meta będą tego chciały.

Co to oznacza dla Ciebie?

Dopóki ION nie stanie się standardem przemysłowym, my – użytkownicy – musimy być ostrożni. jeżeli chcesz neutralnej odpowiedzi, staraj się nie używać w prompcie słów nacechowanych tożsamościowo, jeżeli nie są niezbędne. jeżeli wdrażasz chatboty w firmie, sprawdzaj je pod kątem „plemienności”. Zobacz, jak reagują na różne grupy klientów. Weryfikuj ton. Pamiętaj, iż AI może „brzmieć” obiektywnie, przemycając jednocześnie subtelną niechęć w doborze przymiotników.

Jeśli artykuł Twoje AI jest bardziej „ludzkie”, niż myślisz. Niestety, przejęło od nas trybalizm. Ale jest na to szczepionka nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału