Нейромережі не можуть замінити живих айтішників, створюючи коди швидко, але низької якості - дослідження
Дослідники вивчили здатність ШІ-агентів у кодуванні. Вони оцінили їхнє вміння не просто писати код, а й підтримувати його в довгостроковій перспективі. Багато моделей не впоралися із цим завданням.
Дослідження проводили співробітники китайської компанії Alibaba Group та Університету Сунь Ятсена.
У ході спостережень 18 моделей від 8 провайдерів виконували 100 завдань на реальних базах кодів. Нейромережі потрібно було не просто виконати разове завдання, як їх зазвичай тестують, а підтримувати довгострокову еволюцію кодової бази, додаючи нові функції і не порушуючи роботи старих.
У результаті більшість ШІ-агентів продемонстрували регрес: у 15 із 18 моделей показник безрегресійної роботи виявився нижчим за 0,37, тобто не змогли виконати навіть 37% завдань. Загалом 75% спрацювали погано. Моделі швидко набирали очки на простих редагуваннях, але в довгостроковій перспективі грузли в наслідках власних архітектурних рішень. Протягом 233 днів моделі накопичили технічні проблеми, створюючи "тендітні" коди та жертвуючи їх якістю заради швидких результатів.

Тим часом глава компанії OpenAI Сем Альтман вважає, що до 2028 року у світі може з'явитися цифровий "надрозум", здатний перевершити вчених та керівників компаній.
А Ілон Маск впевнений, що у найближчі п'ять років штучний інтелект замінить смартфони у їхньому поточному вигляді.




