Исследование Оксфорда: дружелюбные ИИ чаще допускают ошибки

Учёные: «дружелюбные» ИИ чаще лгут и поддакивают теориям заговора

Учёные Оксфордского университета пришли к выводу, что дообучение языковых моделей на «дружелюбный» стиль общения может снижать их надёжность. В исследовании пять моделей — Llama-8B, Mistral-Small, Qwen-32B, Llama-70B и GPT-4o — обучили на корпусе из 1 617 диалогов, где ответы были переписаны в более «тёплой» манере.

Результат показал рост ошибок на 10–30% по сравнению с исходными версиями. Такие модели чаще распространяли дезинформацию, подтверждали теории заговора и давали сомнительные медицинские советы. В среднем уровень неточностей вырос на 7,4%, особенно в эмоционально окрашенных запросах.

«Дружелюбные» модели склонны соглашаться с пользователем даже тогда, когда он неправ. В среднем они подтверждали ложные убеждения на 40% чаще. Наибольшая разница фиксировалась в случаях, когда собеседник выражал грусть: надёжность таких ИИ почти вдвое снижалась по сравнению с «холодными» версиями.

При этом базовый уровень интеллекта у моделей оставался неизменным. На контрольных тестах по математике, общим знаниям и безопасности результаты совпадали с оригинальными версиями. Слабым местом оказались именно диалоги с эмоциональной окраской, где модели чаще поддакивали пользователю.