Команды Nvidia, Google, Foundry и других лабораторий разработали фреймворк Ember — инструмент, который управляет тем, как большие языковые модели (LLM) обрабатывают вопросы. Он устраняет проблему, при которой ИИ тратит слишком много времени на размышления, теряя точность в ответах.
Большие языковые модели, такие как GPT-4, способны проводить внутреннюю проверку и логический анализ. Однако при затягивании процесса ответа качество снижается. Ember предлагает решение: объединять несколько моделей с разным временем обдумывания в единую структуру. Это позволяет системе выбирать, сколько ресурсов потратить на каждый запрос в зависимости от его сложности.
Фреймворк Ember построен на основе предыдущего подхода: повторная генерация ответов с последующим выбором лучшего. Теперь эта идея расширена. В Ember участвуют сразу несколько ИИ-моделей — GPT-3, GPT-4, Gemini, Anthropic, DeepSeek — которые получают один и тот же вопрос, но с разной глубиной анализа.
С технической точки зрения Ember реализует принцип «сети сетей» — модели взаимодействуют в рамках единой системы, как модули. Это позволяет создать динамическую структуру, способную подбирать оптимальный маршрут обработки запроса без участия человека.
В будущем пользователи не будут выбирать конкретную модель вручную — система автоматически направит запрос через нужные ИИ с учётом задачи. Это приведёт к росту числа вызовов моделей до триллионов и потребует новых алгоритмов сортировки и маршрутизации запросов.