ИИ справляется с багами лучше на iOS, чем на Android

Платформы iOS и Android по-разному воспринимаются искусственным интеллектом.

Компания Instabug протестировала популярные ИИ-модели — GPT-4o от OpenAI, Claude от Anthropic, Gemini от Google и Llama от Meta — на задачах автоматического поиска и устранения ошибок в мобильных приложениях. Оказалось, что на устройствах Apple модели справляются с задачами лучше, чем на Android.

Для тестирования использовали инструмент SmartResolve. Он находит сбои, анализирует причины и предлагает варианты исправлений на основе реальных данных. Каждое решение оценивали по точности, логике, соответствию человеческим исправлениям и общему качеству.

GPT-4o показала 60% успешности на iOS против 49% — на Android.

У модели o1 разрыв оказался ещё сильнее — 62% на iOS и всего 26% на Android. Claude Sonnet 3.5 от Anthropic показал более стабильные цифры — 58% и 56% соответственно. Gemini 1.5 Pro от Google справился на iOS лучше (59%) по сравнению с Android (51%).

Разницу в результатах связывают с тем, что Android используется на множестве разных устройств, где чаще возникают непредсказуемые ошибки.

Также iOS-приложения чаще пишут на языках Swift и Objective-C — они имеют строгую структуру, что облегчает работу ИИ с кодом. Swift — язык с открытым исходным кодом, разработанный Apple, с сильной типизацией и упрощённым синтаксисом, который повышает читаемость и предсказуемость кода.