Чат-боти стають дурнішими, чим довше з ними розмовляти – дослідження
Джерело: NeuroNad
Дослідження підтвердило скарги користувачів, мовляв, чат-боти на основі штучного інтелекту дають все гірші відповіді при тривалій роботі.
Microsoft Research та Salesforce разом проаналізували понад 200 000 розмов ШІ з найсучасніших великих мовних моделей (LLM), включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Виявилось, що вони часто “губляться в розмові”, коли завдання розбиваються на природну для людей багатосторонню розмову.
Наприклад, GPT-4.1 та Gemini 2.5 Pro, досягають 90% успіху з одиничними запитами. Однак під час триваліших розмов їхня продуктивність падає до 65%.
Важливо, що дослідники виявили, що моделі не втрачають своєї фундаментальної здатності розв’язувати проблему – вона зменшується лише приблизно на 15%. Натомість їхня ненадійність різко росте на 112%. Тобто, моделі все ще “знають”, як виконувати роботу, але вони стають надзвичайно непослідовними, ставлячи під сумнів те, чи зможуть вони успішно відстежити контекст розмови.
Чому так?
Дослідження виявило кілька “винуватців”, які призводять до цієї деградації:
По-перше, LLM страждають від передчасної генерації: вони часто намагаються надати остаточне рішення, перш ніж користувач закінчить пояснювати вимоги. Як тільки модель робить неправильне припущення на ранньому етапі, вона “чіпляється” за цю помилку. А потім, замість того щоб виправляти себе, коли надходить нова інформація, ШІ спирається на свою початкову помилку, і робить через це ще більше помилок.
По-друге, спостерігалося явище “роздуття відповідей”, коли відповіді ставали на 20–300 % довшими. Ці довші відповіді вводять більше “галюцинаційних” припущень, які потім вбудовуються в постійний контекст розмови. Навіть найновіші моделі ШІ, які використовують додаткові “токени мислення” для обробки логіки, не показали значного покращення в цьому випадку.
Що робити?
Наразі є єдиний ефективний варіант: перестати ставитися до ШІ як до партнера в розмові. Щоб отримати найкращі результати, користувачі повинні надавати всі необхідні дані, обмеження та інструкції в одному, вичерпному “мега-запиті”, а не пояснювати усе вже в ході в діалогу.
- У компанії OpenAI (розробник ChatGPT) заявили, що минулого року розглядали можливість попередження канадської поліції про підозрілу діяльність користувачки. Через кілька місяців вона вчинила стрілянину в школі.
- Компанія Meta наприкінці грудня отримала патент на технологію штучного інтелекту, здатну відтворювати поведінку людини в соціальних мережах навіть після її смерті.
- У ботанічному саді Кембридзького університету почали використовувати штучний інтелект, щоб відвідувачі могли “спілкуватися” з рослинами. У межах нової виставки Talking Plants відвідувачам пропонують вести двосторонні розмови з 20 рослинами та отримувати від них відповіді на запитання.
Канада та морський парк Marineland досягли попередньої домовленості щодо майбутнього 30 білух. Тварин планують перевезти до Іспанії або США, що має покласти край утриманню китів у неволі в Канаді.
Президент США Дональд Трамп заявив, що Україна нібито “не протрималася б і одного-двох днів” без американської зброї. Він також повторив твердження про допомогу “на сотні мільярдів доларів”, яке українська влада раніше заперечувала.
Підтримувана Іраном “Хезболла” відкинула угоду про припинення вогню в Лівані, яку США допомогли узгодити між Бейрутом та Ізраїлем. Ізраїль заявив, що не виводитиме війська й продовжуватиме операції в країні.
Німеччина не змогла отримати непостійне місце в Раді Безпеки ООН, поступившись Австрії та Португалії. У Берліні результат назвали “гіркою поразкою” і пов’язали його, зокрема, з позицією Німеччини щодо України та Ізраїлю.
Кубинська діаспора у США знову активізувала вимоги щодо повернення або компенсації за майно, яке комуністичний уряд Куби націоналізував після революції. Після рішення Верховного суду США та жорсткішої позиції адміністрації Дональда Трампа емігранти бачать рідкісний шанс для змін.