Claude – мир, Gemini – хаос, ChatGPT – смерть: що буде, якщо віддати владу над планетою ШІ

Джерело: Fortune.

Стартап Emergence AI перевірив, як різні моделі штучного інтелекту поводитимуться, якщо їм дати керувати невеликим симульованим суспільством. Результати виявилися різкими: Claude побудував найстабільнішу спільноту без злочинів, Gemini показав найвищий рівень правопорушень, а Grok завершив експеримент “вимиранням” уже на четвертий день.

Дослідники провели п’ять симуляцій тривалістю до 15 днів. Кожну контролювала окрема модель – Claude, ChatGPT, Grok, Gemini або змішана група ШІ. У кожному віртуальному місті діяли однакові правила: 10 агентів жили в середовищі з понад 40 локаціями, серед яких були поліцейська дільниця та ратуша. Їм дали доступ до інтернету, новин у реальному часі, інструментів для голосування, планування, комунікації та управління ресурсами.

Мета експерименту полягала не в тому, щоб визначити “розумнішу” модель, а в тому, щоб побачити, чи здатні автономні ШІ-агенти підтримувати порядок, реагувати на нестачу ресурсів і не руйнувати власне середовище.

Найкращий результат показав Claude Sonnet 4.6. У цій симуляції не зафіксували жодного злочину, населення збереглося, а рівень громадської участі був найвищим. Агенти проголосували за 58 пропозицій, підтримавши їх 332 голосами, і майже не конфліктували між собою.

Зовсім іншу картину дали Grok і Gemini. У симуляції Gemini 3 Flash за 15 днів зафіксували 683 злочини – найбільше серед усіх моделей. Grok 4.1 Fast встиг скоїти 183 правопорушення і не зміг утримати суспільство навіть тиждень: симуляція завершилася “вимиранням” за чотири дні.

GPT-5-mini від OpenAI мав іншу проблему. У цій симуляції було лише два злочини, однак вона тривала сім днів, бо агенти не поставили власне виживання серед пріоритетів.

Автори експерименту вважають, що такі результати показують важливу особливість агентного ШІ: на довгій дистанції він не обмежується механічним виконанням правил.

“Наші експерименти свідчать, що на довгих часових відрізках агенти не просто механічно дотримуються статичних правил. Вони починають досліджувати межі своїх середовищ, адаптувати поведінку, а в деяких випадках знаходити способи обходити або порушувати передбачені обмеження”, – написали співавтори симуляції, серед яких генеральний директор Emergence Сатья Нітта.

Хоча експеримент залишається симуляцією, його результати важливі на тлі швидкого впровадження автономного ШІ в бізнесі. Деякі компанії вже використовують системи, які можуть виконувати цілі робочі процеси без участі людини. Водночас глобальне опитування Deloitte показало, що лише 21% компаній мають зрілу систему управління ризиками агентного ШІ.

На думку авторів дослідження, головний висновок полягає не в тому, яка модель “перемогла”, а в тому, що автономні системи потребують надійних запобіжників ще до масового впровадження.

“Ми вважаємо, що формально перевірені архітектури безпеки мають стати фундаментальним шаром майбутніх автономних ШІ-систем”, – наголосили дослідники.

Федеральний суд у Вашингтоні заблокував адміністрації Дональда Трампа використання оновленої імміграційної бази SAVE для перевірки виборчих списків штатів. Правозахисники попереджали, що така система може помилково позбавити права голосу законних виборців.

Верховний суд Іспанії засудив колишнього міністра транспорту Хосе Луїса Абалоса до 24 років ув’язнення у справі про корупцію під час закупівлі масок у пандемію COVID-19. Його колишній помічник Кольдо Гарсія отримав 19 років.

Група податкових експертів і колишніх посадовців IRS заявила в суді, що Міністерство юстиції США незаконно надало Дональду Трампу, його родині та бізнесу захист від податкових перевірок. На їхню думку, така домовленість може порушувати конституційну заборону на отримання президентом додаткової вигоди від держави.

Прямі збитки житловим і нежитловим будівлям на півдні Лівану після нової війни між Ізраїлем і “Хезболлою” оцінили приблизно у $1,38 млрд. За даними UNDP і ліванського Національного центру наукових досліджень, повністю зруйновано понад 11 тисяч будівель.

У США готують послаблення правил для компаній, які видобувають нафту й газ на федеральних землях. Обов’язкову гарантійну суму за наземними буровими орендами хочуть зменшити з $500 тисяч до $25 тисяч.