Claude – мир, Gemini – хаос, ChatGPT – смерть: що буде, якщо віддати владу над планетою ШІ

Джерело: Fortune.

Стартап Emergence AI перевірив, як різні моделі штучного інтелекту поводитимуться, якщо їм дати керувати невеликим симульованим суспільством. Результати виявилися різкими: Claude побудував найстабільнішу спільноту без злочинів, Gemini показав найвищий рівень правопорушень, а Grok завершив експеримент “вимиранням” уже на четвертий день.

Дослідники провели п’ять симуляцій тривалістю до 15 днів. Кожну контролювала окрема модель – Claude, ChatGPT, Grok, Gemini або змішана група ШІ. У кожному віртуальному місті діяли однакові правила: 10 агентів жили в середовищі з понад 40 локаціями, серед яких були поліцейська дільниця та ратуша. Їм дали доступ до інтернету, новин у реальному часі, інструментів для голосування, планування, комунікації та управління ресурсами.

Мета експерименту полягала не в тому, щоб визначити “розумнішу” модель, а в тому, щоб побачити, чи здатні автономні ШІ-агенти підтримувати порядок, реагувати на нестачу ресурсів і не руйнувати власне середовище.

Найкращий результат показав Claude Sonnet 4.6. У цій симуляції не зафіксували жодного злочину, населення збереглося, а рівень громадської участі був найвищим. Агенти проголосували за 58 пропозицій, підтримавши їх 332 голосами, і майже не конфліктували між собою.

Зовсім іншу картину дали Grok і Gemini. У симуляції Gemini 3 Flash за 15 днів зафіксували 683 злочини – найбільше серед усіх моделей. Grok 4.1 Fast встиг скоїти 183 правопорушення і не зміг утримати суспільство навіть тиждень: симуляція завершилася “вимиранням” за чотири дні.

GPT-5-mini від OpenAI мав іншу проблему. У цій симуляції було лише два злочини, однак вона тривала сім днів, бо агенти не поставили власне виживання серед пріоритетів.

Автори експерименту вважають, що такі результати показують важливу особливість агентного ШІ: на довгій дистанції він не обмежується механічним виконанням правил.

“Наші експерименти свідчать, що на довгих часових відрізках агенти не просто механічно дотримуються статичних правил. Вони починають досліджувати межі своїх середовищ, адаптувати поведінку, а в деяких випадках знаходити способи обходити або порушувати передбачені обмеження”, – написали співавтори симуляції, серед яких генеральний директор Emergence Сатья Нітта.

Хоча експеримент залишається симуляцією, його результати важливі на тлі швидкого впровадження автономного ШІ в бізнесі. Деякі компанії вже використовують системи, які можуть виконувати цілі робочі процеси без участі людини. Водночас глобальне опитування Deloitte показало, що лише 21% компаній мають зрілу систему управління ризиками агентного ШІ.

На думку авторів дослідження, головний висновок полягає не в тому, яка модель “перемогла”, а в тому, що автономні системи потребують надійних запобіжників ще до масового впровадження.

“Ми вважаємо, що формально перевірені архітектури безпеки мають стати фундаментальним шаром майбутніх автономних ШІ-систем”, – наголосили дослідники.

Прямі збитки житловим і нежитловим будівлям на півдні Лівану після нової війни між Ізраїлем і “Хезболлою” оцінили приблизно у $1,38 млрд. За даними UNDP і ліванського Національного центру наукових досліджень, повністю зруйновано понад 11 тисяч будівель.

У США готують послаблення правил для компаній, які видобувають нафту й газ на федеральних землях. Обов’язкову гарантійну суму за наземними буровими орендами хочуть зменшити з $500 тисяч до $25 тисяч.

У промисловій зоні Ras Laffan у Катарі стався вибух на газовому об’єкті Barzan. За даними влади, загинули щонайменше 13 людей, ще 66 дістали поранення.

Капітан збірної Аргентини Ліонель Мессі став найкращим бомбардиром в історії чемпіонатів світу з футболу. У матчі другого туру ЧС-2026 проти Австрії він забив свій 17-й гол на мундіалях і перевершив рекорд німця Мірослава Клозе.

Гейлі Бібер стала обличчям нової кампанії бренду Skims, заснованого Кім Кардаш’ян. Модель знялася для колекції Everyday Cotton і розповіла про базові речі, які носить щодня.