Google представила нейросеть DolphinGemma, предназначенную для анализа звуков дельфинов. Она создана на основе языковых моделей Gemma и Gemini и обрабатывает аудиоданные по принципу «вход — выход»: принимает звуки и прогнозирует их продолжение, как текстовые ИИ предсказывают слова.
Объём модели — 400 миллионов параметров. Этого достаточно, чтобы выявлять закономерности в звуках дельфинов, связывая их с поведением. Применяется аудиотехнология SoundStream, позволяющая запускать DolphinGemma на смартфонах Google Pixel.
База данных, использованная при обучении, собрана исследовательским проектом Wild Dolphin Project, который с 1985 года изучает атлантических пятнистых дельфинов в районе Багамских островов. Эта организация фиксирует звуки и поведение дельфинов под водой.
Ученые уже классифицировали определенные типы звуков. Например, у дельфинов есть индивидуальные свистки, по которым мать узнает детеныша. Визги характерны для конфликтов, а жужжание сопровождает брачное поведение или защиту от акул.
Смартфоны используются для записи в полевых условиях. Это позволяет сократить дистанцию между наблюдением и обработкой данных, так как DolphinGemma работает локально.