ШІ навчився оживляти фото: Google запускає інструмент для генерації відео з зображень

Джерело: Washington Post

Компанія Google додала до свого додатка Gemini AI функцію, яка дозволяє створювати відео зі статичних зображень. Тепер користувачі, які мають платну підписку, можуть завантажити фото, додати текстовий опис – і отримати 8-секундне відео. Інструмент працює на базі генератора Veo 3 і вже встиг стати популярним серед тих, хто хоче анімувати старі світлини, вигадати фантастичні сцени або змонтувати короткі візуальні історії з кількох частин.

Цей запуск – черговий крок у гонці генеративного відео між техногігантами. Нагадаємо, OpenAI ще торік представила свій аналог – Sora, який уже вразив користувачів правдоподібністю роликів. Але водночас разом із розвитком таких інструментів зростає і тривога щодо їхнього впливу: йдеться про авторські права, ринки праці, діпфейки та маніпуляції реальністю.

Щоб отримати доступ до функції, потрібно мати одну з платних підписок: Google AI Pro (19,99 дол. на місяць) або Ultra (249,99 дол.). Користувач обирає тип запиту “відео”, завантажує фото і прописує, що саме хоче бачити у фінальному ролику – аж до деталей і звукових ефектів. Наприклад, на зображенні може бути зображено людину, і тоді можна вказати, що вона має зробити або сказати. Якщо ж це пейзаж – допустимі й більш абсурдні вказівки на кшталт прибульців або погодних катаклізмів.

Принцип роботи таких генераторів – навчання на гігантських масивах даних: фото, відео, текстах та аудіо. Як зазначає Washington Post, результати можуть бути як цілком реалістичними, так і з помітними вадами – типу додаткових пальців чи перекошених облич.

Попри технічні огріхи, відео зі штучним інтелектом уже стають інтернет-трендом. Один з останніх прикладів – фейковий ролик, де нібито єврейські знаменитості показують середній палець реперу Є (Каньє Весту) у відповідь на його антисемітські заяви. А під час політичної кампанії 2023 року Дональд Трамп виправдовувався, що відео з його помилками – теж витвір ШІ.

Технології провокують юридичні конфлікти. Компанії, які розробляють генеративні ШІ, стикаються з претензіями авторів, журналістів і митців, які вважають, що їхній контент використовують без дозволу. У червні Disney та Universal подали позови до стартапу Midjourney за порушення авторських прав – уперше великі студії пішли на такий крок.

Google запевняє, що інструмент Gemini призначений для творчих експериментів, а не для того, щоб витіснити професіоналів з ринку. Для експертів компанія розробляє окремий інструмент Flow з розширеними можливостями. Крім того, у Gemini діє блокування на створення сексуального чи неприйнятного контенту.

Однак хвилювання з приводу наслідків залишаються. Зокрема, відео, згенеровані ШІ, вже використовуються для створення діпфейків з оголеними зображеннями – зокрема знаменитостей, політиків і навіть неповнолітніх. Проблема в тому, що деякі генератори можна запустити локально на комп’ютері без жодних обмежень.

Брендан Гахан, CEO агентства Creator Authority, вважає, що інструменти ШІ допоможуть творцям зекономити час, наприклад, на перезйомках чи редагуванні, але не замінять людського підходу. За його словами, як Photoshop не “вбив” дизайнерів, так і генеративне відео не прибере творців з ринку – просто змінить правила гри. А тим, хто займається контентом серйозно, варто вже зараз навчатися працювати з новими інструментами.

Водночас Міранда Боген, директорка лабораторії управління ШІ в Центрі демократії та технологій, попереджає: відкритий доступ до потужних інструментів – це не лише плюс. Без належного тестування такі продукти можуть сприяти поширенню фейків, стереотипів, шахрайства і дезінформації.

“Ми не можемо покладатися лише на розмиті обіцянки безпеки від розробників. Потрібні конкретні кроки, щоб запобігти зловживанням”, – заявила вона.

Лікарі Центру репродуктивної медицини Колумбійського університету повідомили про першу вагітність, досягнуту завдяки новій системі штучного інтелекту, у пари, яка майже двадцять років намагалася стати батьками.