Claude – мир, Gemini – хаос, ChatGPT – смерть: що буде, якщо віддати владу над планетою ШІ
Джерело: Fortune.
Стартап Emergence AI перевірив, як різні моделі штучного інтелекту поводитимуться, якщо їм дати керувати невеликим симульованим суспільством. Результати виявилися різкими: Claude побудував найстабільнішу спільноту без злочинів, Gemini показав найвищий рівень правопорушень, а Grok завершив експеримент “вимиранням” уже на четвертий день.
Дослідники провели п’ять симуляцій тривалістю до 15 днів. Кожну контролювала окрема модель – Claude, ChatGPT, Grok, Gemini або змішана група ШІ. У кожному віртуальному місті діяли однакові правила: 10 агентів жили в середовищі з понад 40 локаціями, серед яких були поліцейська дільниця та ратуша. Їм дали доступ до інтернету, новин у реальному часі, інструментів для голосування, планування, комунікації та управління ресурсами.
Мета експерименту полягала не в тому, щоб визначити “розумнішу” модель, а в тому, щоб побачити, чи здатні автономні ШІ-агенти підтримувати порядок, реагувати на нестачу ресурсів і не руйнувати власне середовище.
Найкращий результат показав Claude Sonnet 4.6. У цій симуляції не зафіксували жодного злочину, населення збереглося, а рівень громадської участі був найвищим. Агенти проголосували за 58 пропозицій, підтримавши їх 332 голосами, і майже не конфліктували між собою.
Зовсім іншу картину дали Grok і Gemini. У симуляції Gemini 3 Flash за 15 днів зафіксували 683 злочини – найбільше серед усіх моделей. Grok 4.1 Fast встиг скоїти 183 правопорушення і не зміг утримати суспільство навіть тиждень: симуляція завершилася “вимиранням” за чотири дні.
GPT-5-mini від OpenAI мав іншу проблему. У цій симуляції було лише два злочини, однак вона тривала сім днів, бо агенти не поставили власне виживання серед пріоритетів.
Автори експерименту вважають, що такі результати показують важливу особливість агентного ШІ: на довгій дистанції він не обмежується механічним виконанням правил.
“Наші експерименти свідчать, що на довгих часових відрізках агенти не просто механічно дотримуються статичних правил. Вони починають досліджувати межі своїх середовищ, адаптувати поведінку, а в деяких випадках знаходити способи обходити або порушувати передбачені обмеження”, – написали співавтори симуляції, серед яких генеральний директор Emergence Сатья Нітта.
Хоча експеримент залишається симуляцією, його результати важливі на тлі швидкого впровадження автономного ШІ в бізнесі. Деякі компанії вже використовують системи, які можуть виконувати цілі робочі процеси без участі людини. Водночас глобальне опитування Deloitte показало, що лише 21% компаній мають зрілу систему управління ризиками агентного ШІ.
На думку авторів дослідження, головний висновок полягає не в тому, яка модель “перемогла”, а в тому, що автономні системи потребують надійних запобіжників ще до масового впровадження.
“Ми вважаємо, що формально перевірені архітектури безпеки мають стати фундаментальним шаром майбутніх автономних ШІ-систем”, – наголосили дослідники.
- Meta підтвердила, що хакери використовували ШІ-помічника служби підтримки компанії для отримання доступу до приватних акаунтів в Instagram. Проблему вже усунули, а постраждалі облікові записи додатково захищають.
- У Сан-Франциско запрацював магазин Andon Market, яким керує штучний інтелект. В маркеті продають настільні ігри, книжки, свічки та інші товари для дому, однак ключова особливість у тому, що рішення щодо асортименту, цін і роботи персоналу ухвалює ШІ-агент на ім’я Луна.
Дитинство під час війни – це завжди трагедія. Але дитинство тих, хто місяцями чекає батьків із фронту, – це особливий, дорослий тягар. Його не скинеш, від нього не сховаєшся, і кожна зовсім маленька людина несе його по-своєму. Дев’ятирічний Іван вигадав власний мовчазний маніфест підтримки: він відмовився стригтися, допоки тато не повернеться з позицій і вони разом не підуть у барбершоп.
Прем’єр-міністр Угорщини Петер Мадяр готовий зустрітися з президентом Володимиром Зеленським на початку наступного тижня, якщо вдасться досягти згоди щодо питання основних прав угорської меншини в Україні.
Дослідники Emergence AI запустили п’ять симуляцій суспільства, якими керували різні ШІ-моделі. У дослідженні модель Claude зберегла населення й порядок протягом 15 днів, GPT-5-mini “забув” про виживання, а Grok довів симуляцію до краху за чотири дні.
У місті Палм-Спрінгс у Каліфорнії 1037 людей у білих сукнях і світлих перуках відтворили культовий образ Мерилін Монро та встановили новий рекорд Гіннеса. Акція відбулася з нагоди 100-річчя від дня народження акторки біля статуї “Мерилін назавжди”.
Метеорологічна служба ООН прогнозує помірне або, можливо, сильне явище “Ель-Ніньйо”. Це може спричинити підвищення глобальних температур та збільшити ризик екстремальних погодних явищ у найближчі місяці.