AI токен

ИИ путается от переизбытка токенов: Microsoft раскрыла неожиданный эффект

Чем больше вычислений при генерации текста — тем хуже могут быть ответы нейросети, особенно на сложных задачах.

Исследователи Microsoft обнаружили, что увеличение числа токенов и ресурсов при генерации ответа не всегда помогает языковым моделям лучше решать задачи. Иногда это даже ухудшает результат.

В эксперименте участвовали девять популярных моделей: GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro, o1 от OpenAI, DeepSeek R1 и другие. Их тестировали на восьми наборах задач, включая математику (AIME, Omni-MATH), планирование (BA-Calendar) и NP-трудные задачи вроде 3SAT и задачи коммивояжёра (TSP).

Масштабирование вывода — это способ повысить качество ответа, когда модели предоставляют больше ресурсов для рассуждений.

В тестах применялись три варианта масштабирования: цепочка рассуждений (Chain-of-Thought, CoT), параллельный и последовательный вызов модели. Результаты показали, что эти подходы не всегда помогают. Например, модели, хорошо справлявшиеся с математикой, не демонстрировали тех же успехов в задачах логики и планирования.

Исследование выявило важную особенность: некоторые модели расходовали намного больше токенов при одинаковом уровне точности. На экзамене AIME модель DeepSeek R1 использовала в 5 раз больше токенов, чем Claude 3.5 Sonnet, при схожих результатах. Это указывает на неэффективное использование ресурсов.

Также выяснилось, что длинные цепочки рассуждений не гарантируют улучшения — наоборот, они могут указывать на затруднение модели. Высокое количество сгенерированных токенов не связано напрямую с точностью, а иногда говорит о том, что модель «топчется на месте».

В ряде случаев обычные модели вроде GPT-4o, при многократном повторении вывода (до 50 раз), приближались по результатам к специализированным моделям. Но при решении сложных задач этот метод оказывался малоэффективным.