Китайская компания DeepSeek совместно с учёными из Университета Цинхуа разработала метод обучения языковых моделей, при котором нейросеть сама проверяет и улучшает свои ответы.
Подход объединяет два элемента: генерацию критериев оценки (GRM — generative reward modeling) и самокритику (SPCT — self-principled critique tuning).
Вместо того чтобы расширять модель и тратить ресурсы, разработчики встроили внутрь алгоритм, который действует как внутренний «судья».
Суть в том, что ИИ сначала сам формулирует правила, по которым будет оценивать свои ответы, а потом использует эти же правила, чтобы находить и исправлять недостатки.
Если ответ соответствует заданным критериям, система усиливает поведение модели с помощью положительной обратной связи.
Разработчики считают, что такой подход позволяет быстрее и точнее обучать ИИ.
По их словам, система DeepSeek-GRM уже демонстрирует результаты выше, чем у Google Gemini, GPT-4o от OpenAI и Meta Llama.
DeepSeek планирует выложить свои ИИ-модели в открытый доступ, но точных дат пока нет.
В марте компания сообщила об улучшении логических способностей своей модели V3 и повышении уровня понимания китайского языка.
В январе DeepSeek представила модель R1 — она дешевле и, по их утверждению, не уступает по качеству ChatGPT. В феврале компания открыла исходный код сразу пяти ИИ-проектов.
Что такое LLM (Large Language Model)
Это искусственный интеллект, обученный на больших массивах текстов. Такие модели понимают контекст, генерируют текст, переводят, пишут код. Примеры — ChatGPT, Claude, Gemini.
Что такое GRM и SPCT
GRM — это система, при которой модель сама формирует правила, по которым оценивает свои ответы. SPCT — механизм, когда ИИ критикует себя, сравнивая результат с эталоном и собственными принципами.