Чат-боти стають дурнішими, чим довше з ними розмовляти – дослідження

Джерело: NeuroNad

Дослідження підтвердило скарги користувачів, мовляв, чат-боти на основі штучного інтелекту дають все гірші відповіді при тривалій роботі.

Microsoft Research та Salesforce разом проаналізували понад 200 000 розмов ШІ з найсучасніших великих мовних моделей (LLM), включаючи GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 та Llama 4. Виявилось, що вони часто “губляться в розмові”, коли завдання розбиваються на природну для людей багатосторонню розмову.

Наприклад, GPT-4.1 та Gemini 2.5 Pro, досягають 90% успіху з одиничними запитами. Однак під час триваліших розмов їхня продуктивність падає до 65%.

Важливо, що дослідники виявили, що моделі не втрачають своєї фундаментальної здатності розв’язувати проблему – вона зменшується лише приблизно на 15%. Натомість їхня ненадійність різко росте на 112%. Тобто, моделі все ще “знають”, як виконувати роботу, але вони стають надзвичайно непослідовними, ставлячи під сумнів те, чи зможуть вони успішно відстежити контекст розмови.

Чому так?

Дослідження виявило кілька “винуватців”, які призводять до цієї деградації:

По-перше, LLM страждають від передчасної генерації: вони часто намагаються надати остаточне рішення, перш ніж користувач закінчить пояснювати вимоги. Як тільки модель робить неправильне припущення на ранньому етапі, вона “чіпляється” за цю помилку. А потім, замість того щоб виправляти себе, коли надходить нова інформація, ШІ спирається на свою початкову помилку, і робить через це ще більше помилок.

По-друге, спостерігалося явище “роздуття відповідей”, коли відповіді ставали на 20–300 % довшими. Ці довші відповіді вводять більше “галюцинаційних” припущень, які потім вбудовуються в постійний контекст розмови. Навіть найновіші моделі ШІ, які використовують додаткові “токени мислення” для обробки логіки, не показали значного покращення в цьому випадку.

Що робити?

Наразі є єдиний ефективний варіант: перестати ставитися до ШІ як до партнера в розмові. Щоб отримати найкращі результати, користувачі повинні надавати всі необхідні дані, обмеження та інструкції в одному, вичерпному “мега-запиті”, а не пояснювати усе вже в ході в діалогу.

Нью-Йоркська поліція розшукує водія мотоцикла, причетного до смертельної стрілянини, внаслідок якої загинула семимісячна дитина. Трагедія сталася у Брукліні, коли випадкова куля влучила в немовля у візочку.

Поки 70% громадян США вважають війну в Ірані занадто дорогою ціною, Дональд Трамп пропонує штатам самотужки шукати кошти на медицину та освіту. Згідно з даними CNN, Трамп у закритому колі підтвердив, що пріоритетом Вашингтона є виключно армія, а не соціальні програми, які він назвав “махінаціями”, що мають лягти на плечі штатів.

В ізраїльських ресторанах фіксують зростання випадків, коли клієнти залишають заклади під час повітряної тривоги і не повертаються оплатити рахунок.

Світові ціни на фізичні поставки нафти у четвер, 2 квітня, подолали позначку у 140 доларів, встановивши новий максимум з 2008 року. Поки біржові котирування залишаються відносно стабільними, нафтопереробники змушені переплачувати величезні суми за реальну сировину через тривалу зупинку руху в Ормузькій протоці.

Президент Володимир Зеленський оголосив про старт робіт на 245 об’єктах енергетики в межах підготовки до наступного опалювального сезону. Під час наради з регіонами він наголосив, що відновлення триває за рахунок внутрішніх ресурсів, оскільки багатомільярдний пакет фінансової допомоги від Євросоюзу залишається заблокованим.