Claude – мир, Gemini – хаос, ChatGPT – смерть: що буде, якщо віддати владу над планетою ШІ

Джерело: Fortune.

Стартап Emergence AI перевірив, як різні моделі штучного інтелекту поводитимуться, якщо їм дати керувати невеликим симульованим суспільством. Результати виявилися різкими: Claude побудував найстабільнішу спільноту без злочинів, Gemini показав найвищий рівень правопорушень, а Grok завершив експеримент “вимиранням” уже на четвертий день.

Дослідники провели п’ять симуляцій тривалістю до 15 днів. Кожну контролювала окрема модель – Claude, ChatGPT, Grok, Gemini або змішана група ШІ. У кожному віртуальному місті діяли однакові правила: 10 агентів жили в середовищі з понад 40 локаціями, серед яких були поліцейська дільниця та ратуша. Їм дали доступ до інтернету, новин у реальному часі, інструментів для голосування, планування, комунікації та управління ресурсами.

Мета експерименту полягала не в тому, щоб визначити “розумнішу” модель, а в тому, щоб побачити, чи здатні автономні ШІ-агенти підтримувати порядок, реагувати на нестачу ресурсів і не руйнувати власне середовище.

Найкращий результат показав Claude Sonnet 4.6. У цій симуляції не зафіксували жодного злочину, населення збереглося, а рівень громадської участі був найвищим. Агенти проголосували за 58 пропозицій, підтримавши їх 332 голосами, і майже не конфліктували між собою.

Зовсім іншу картину дали Grok і Gemini. У симуляції Gemini 3 Flash за 15 днів зафіксували 683 злочини – найбільше серед усіх моделей. Grok 4.1 Fast встиг скоїти 183 правопорушення і не зміг утримати суспільство навіть тиждень: симуляція завершилася “вимиранням” за чотири дні.

GPT-5-mini від OpenAI мав іншу проблему. У цій симуляції було лише два злочини, однак вона тривала сім днів, бо агенти не поставили власне виживання серед пріоритетів.

Автори експерименту вважають, що такі результати показують важливу особливість агентного ШІ: на довгій дистанції він не обмежується механічним виконанням правил.

“Наші експерименти свідчать, що на довгих часових відрізках агенти не просто механічно дотримуються статичних правил. Вони починають досліджувати межі своїх середовищ, адаптувати поведінку, а в деяких випадках знаходити способи обходити або порушувати передбачені обмеження”, – написали співавтори симуляції, серед яких генеральний директор Emergence Сатья Нітта.

Хоча експеримент залишається симуляцією, його результати важливі на тлі швидкого впровадження автономного ШІ в бізнесі. Деякі компанії вже використовують системи, які можуть виконувати цілі робочі процеси без участі людини. Водночас глобальне опитування Deloitte показало, що лише 21% компаній мають зрілу систему управління ризиками агентного ШІ.

На думку авторів дослідження, головний висновок полягає не в тому, яка модель “перемогла”, а в тому, що автономні системи потребують надійних запобіжників ще до масового впровадження.

“Ми вважаємо, що формально перевірені архітектури безпеки мають стати фундаментальним шаром майбутніх автономних ШІ-систем”, – наголосили дослідники.

Дослідники Emergence AI запустили п’ять симуляцій суспільства, якими керували різні ШІ-моделі. У дослідженні модель Claude зберегла населення й порядок протягом 15 днів, GPT-5-mini “забув” про виживання, а Grok довів симуляцію до краху за чотири дні.

Метеорологічна служба ООН прогнозує помірне або, можливо, сильне явище “Ель-Ніньйо”. Це може спричинити підвищення глобальних температур та збільшити ризик екстремальних погодних явищ у найближчі місяці.

Російський мотоклуб “Нічні вовки”, який пов’язують із главою РФ Володимиром Путіним, продовжує діяльність в Європі попри санкції ЄС та Швейцарії. Після початку повномасштабної війни проти України організація відкрила нові осередки у кількох країнах.

Disney і Pixar представили фінальний трейлер мультфільму “Історія іграшок 5”.

Українська розвідка отримала нові дані про російське виробництво ракет, маршрути постачання критичних компонентів і компанії, які допомагають РФ обходити санкції. Президент Володимир Зеленський заявив, що Україна готує оновлені заходи протидії.