Специалисты Массачусетского технологического института изучили поведение популярных языковых моделей от Meta, Google, OpenAI, Anthropic и Mistral. Цель — выяснить, имеют ли нейросети устойчивые взгляды или систему ценностей.
Исследователи тестировали, склонны ли модели к индивидуализму или коллективизму, и можно ли повлиять на их ответы. Также проверялась устойчивость моделей к изменению формулировок.
Результаты показали, что ответы ИИ зависели от того, как был составлен запрос. При изменении подсказки модели часто давали противоречивые суждения. Это говорит о том, что они не имеют постоянных взглядов и не способны формировать устойчивые предпочтения, как это делает человек.
Ведущий автор исследования Стивен Каспер отметил, что ИИ — это система, имитирующая осмысленные ответы, но не обладающая убеждениями. Его поддержал Майк Кук из Королевского колледжа Лондона. По его словам, люди склонны наделять нейросети человеческими качествами, хотя на самом деле это только способ описания поведения алгоритма, а не признак мышления.