DeepSeek

Китайская нейросеть учится критиковать себя без помощи человека

Китайская компания DeepSeek совместно с учёными из Университета Цинхуа разработала метод обучения языковых моделей, при котором нейросеть сама проверяет и улучшает свои ответы.

Подход объединяет два элемента: генерацию критериев оценки (GRM — generative reward modeling) и самокритику (SPCT — self-principled critique tuning).

Вместо того чтобы расширять модель и тратить ресурсы, разработчики встроили внутрь алгоритм, который действует как внутренний «судья».

Суть в том, что ИИ сначала сам формулирует правила, по которым будет оценивать свои ответы, а потом использует эти же правила, чтобы находить и исправлять недостатки.

Если ответ соответствует заданным критериям, система усиливает поведение модели с помощью положительной обратной связи.

Разработчики считают, что такой подход позволяет быстрее и точнее обучать ИИ.

По их словам, система DeepSeek-GRM уже демонстрирует результаты выше, чем у Google Gemini, GPT-4o от OpenAI и Meta Llama.

DeepSeek планирует выложить свои ИИ-модели в открытый доступ, но точных дат пока нет.

В марте компания сообщила об улучшении логических способностей своей модели V3 и повышении уровня понимания китайского языка.

В январе DeepSeek представила модель R1 — она дешевле и, по их утверждению, не уступает по качеству ChatGPT. В феврале компания открыла исходный код сразу пяти ИИ-проектов.

Что такое LLM (Large Language Model)

Это искусственный интеллект, обученный на больших массивах текстов. Такие модели понимают контекст, генерируют текст, переводят, пишут код. Примеры — ChatGPT, Claude, Gemini.

Что такое GRM и SPCT

GRM — это система, при которой модель сама формирует правила, по которым оценивает свои ответы. SPCT — механизм, когда ИИ критикует себя, сравнивая результат с эталоном и собственными принципами.