Поки що штучний розум справляється з багатьма завданнями гірше за людський. Фото: bpms.ru

Дослідники вивчили здатність ШІ-агентів у кодуванні. Вони оцінили їхнє вміння не просто писати код, а й підтримувати його в довгостроковій перспективі. Багато моделей не впоралися із цим завданням.

Дослідження проводили співробітники китайської компанії Alibaba Group та Університету Сунь Ятсена.

У ході спостережень 18 моделей від 8 провайдерів виконували 100 завдань на реальних базах кодів. Нейромережі потрібно було не просто виконати разове завдання, як їх зазвичай тестують, а підтримувати довгострокову еволюцію кодової бази, додаючи нові функції і не порушуючи роботи старих.

У результаті більшість ШІ-агентів продемонстрували регрес: у 15 із 18 моделей показник безрегресійної роботи виявився нижчим за 0,37, тобто не змогли виконати навіть 37% завдань. Загалом 75% спрацювали погано. Моделі швидко набирали очки на простих редагуваннях, але в довгостроковій перспективі грузли в наслідках власних архітектурних рішень. Протягом 233 днів моделі накопичили технічні проблеми, створюючи "тендітні" коди та жертвуючи їх якістю заради швидких результатів.

Тим часом глава компанії OpenAI Сем Альтман вважає, що до 2028 року у світі може з'явитися цифровий "надрозум", здатний перевершити вчених та керівників компаній.

А Ілон Маск впевнений, що у найближчі п'ять років штучний інтелект замінить смартфони у їхньому поточному вигляді.

Підпишіться на телеграм-канал Політика Страни, щоб отримувати ясну, зрозумілу та швидку аналітику щодо політичних подій в Україні.