AI обучение

ИИ режут по кускам: зачем учёные урезают нейросети

Нейросети становятся легче и быстрее: ученые научились удалять из них всё лишнее, оставляя только нужное для конкретных задач.

Крупные языковые модели вроде GPT используют сотни миллиардов параметров. Это математические коэффициенты, которые формируются во время обучения и определяют поведение модели. Чем больше параметров, тем выше точность и шире возможности. Но большие модели требуют огромных вычислительных мощностей и затрат.

Чтобы упростить модели, инженеры применяют технику под названием “обрезка нейросетей” — это удаление неиспользуемых или слабых связей между нейронами. Такой подход позволяет создавать малые модели — до 10 миллиардов параметров. Они справляются с узкими задачами: краткое изложение текста, ответы в медицинских чат-ботах, распознавание команд в гаджетах.

Метод обрезки напоминает процесс в мозге человека, где со временем отсекаются неактивные связи между нейронами для лучшей работы. В 1989 году Ян Лекун, один из пионеров машинного обучения, предложил удалять до 90% параметров без потери качества. Эта идея используется и сегодня при создании “облегчённых” моделей от Google, IBM, Microsoft и других компаний.

Такие малые модели быстрее обучаются, требуют меньше ресурсов и проще внедряются в устройства и сервисы.