OpenAI przyznaje, że omijanie tzw. halucynacji jest „matematycznie niemożliwe”

Nowe badania OpenAI ujawniają, że halucynacje w dużych modelach językowych, polegające na generowaniu fałszywych, ale naturalnie brzmiących odpowiedzi, pozostają istotnym wyzwaniem. Mimo postępów w modelu GPT-5, problem ten wciąż wymaga dalszej analizy i badań nad poprawą dokładności i rzetelności sztucznej inteligencji.

OpenAI, który jest odpowiedzialny za ChatGPT, w jednej z najnowszych prac naukowych przyznało, że ograniczenia matematyczne uniemożliwiają całkowite rozwiązanie problemu związanego z tzw. halucynacjami dużych modeli językowych.

W kontekście modeli sztucznej inteligencji, „halucynacja” jest przypadkiem, gdy na podstawie modelu generowane są odpowiedzi, które są fałszywe, ale wciąż brzmią one wystarczająco naturalnie.

W pracy naukowej datowanej na 4 września 2025 roku, autorzy piszą:

Podobnie jak uczniowie zmagający się z trudnymi pytaniami na sprawdzianach, duże modele językowe czasami generują naturalnie brzmiące wypowiedzi, które nie są prawdziwe, zamiast „przyznać”, że nie mają wiedzy na dany temat.

Oprócz własnych modeli językowych, naukowcy pracujący dla OpenAI potwierdzili swoje przypuszczenia także wobec konkurencyjnych modeli językowych — tych spod szyldu chińskiego DeepSeeka, czy też modeli LLaMa od Mety albo Claude Sonnet.

Dla przykładu, proste pytanie brzmiące „ile liter «D» znajduje się w słowie DeepSeek” w przypadku DeepSeeka zwróciło odpowiedź, że „dwie”, z kolei modele Mety czy Claude odpowiadały, że aż „sześć” czy „siedem” — zgodnie z obserwacjami autorów pracy naukowej.

Według naszych pobieżnych testów jedynie model GPT-5 dostępny za pomocą wyszukiwarki DuckDuckGo zdołał odpowiedzieć poprawnie na pytanie — wcześniejsza wersja, GPT-4o mini czy konkurencyjny Claude 3.5 Haiku odpowiadały, że w słowie znajdowały się „dwie” litery.

Przykład błędnej odpowiedzi, która sugeruje, że w słowie DeepSeek znajdują się dwie litery „D”
Kolejny przykład błędnej odpowiedzi, tym razem względem modelu Claude Haiku 3.5

Model podstawowy dostępny poprzez serwis ChatGPT również odpowiedział bezbłędnie.

Przykład prawidłowej odpowiedzi wygenerowanej przez model językowy

Choć najnowsza wersja modelu GPT — oznaczona numerem 5 — zgodnie z zapewnieniami autorów „halucynuje w znacznie mniejszym stopniu”, tak „wciąż mają one miejsce”.

„Takie rzeczy mają miejsce w nawet najlepszych modelach i powodują stratę zaufania do sztucznej inteligencji” — możemy przeczytać w krótkim opisie dokumentu.

Powiązane: Sprawdziłem model językowy PLLuM. O Fediwersum trochę wie, o Kontrabandzie nie wie, a mnie myli z TikTokerem

Źródła

Zdjęcie tytułowe zostało zrobione przez Jerneja Furmana i jest ono dostępne na Wikimedia Commons na licencji Creative Commons BY 2.0 Generic. Treść artykułu powstała na podstawie następujących źródeł tekstowych i/lub audiowizualnych:

Wesprzyj „Kontrabandę”!

„Kontrabanda” jest portalem, na którym nie ma reklam, nadmiaru treści sponsorowanych ani też clickbaitów. Prowadzimy go w trzy osoby z zamiłowania do technologii. Z tego względu naszym jedynym źródłem utrzymania się są na ten moment dobrowolne datki.

Przemyśl przelanie nam nawet kilku złotych miesięcznie jedną z wybranych metod, żeby „Kontrabanda” mogła się rozwijać. Dziękujemy!

Nie jesteś w stanie wesprzeć nas finansowo w tej chwili? Żaden problem. Wystarczy już nawet to, że przekażesz dalej artykuł napisany na „Kontrabandzie”, taki jak ten, który obecnie czytasz.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

2 × 5 =

Komentując, pamiętaj o przestrzeganiu regulaminu prowadzenia dyskusji.