Пока искусственный разум справляется со многими задачами хуже человеческого. Фото: bpms.ru

Исследователи изучили способность ИИ-агентов в кодировании. Они оценили их умение не просто писать код, но и поддерживать его в долгосрочной перспективе. Многие модели не справились с этой задачей.

Исследование проводили сотрудники китайской компании Alibaba Group и Университета Сунь Ятсена. 

В ходе наблюдений 18 моделей от 8 провайдеров выполняли 100 задач на реальных кодовых базах. Нейросетям нужно было не просто выполнить разовое задание, как их обычно тестируют, а поддерживать долгосрочную эволюцию кодовой базы, добавляя новые функции и не нарушая работы старых.

В итоге большинство ИИ-агентов продемонстрировали регресс: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37, то есть не смогли выполнить даже 37% задач. В целом 75% сработали плохо. Модели быстро набирали очки на простых правках, но в долгосрочной перспективе вязли в последствиях собственных архитектурных решений. В течение 233 дней модели накопили технические проблемы, создавая "хрупкие" коды и жертвуя их качеством ради быстрых результатов.

Между тем глава компании OpenAI Сэм Альтман считает, что к 2028 году в мире может появиться цифровой "сверхразум", способный превзойти учёных и руководителей компаний.

А Илон Маск уверен, что в ближайшие пять лет искусственный интеллект заменит смартфоны в их текущем виде.

Подпишитесь на телеграм-канал Политика Страны, чтобы получать ясную, понятную и быструю аналитику по политическим событиям в Украине.