Google розробить ШІ-модель для генерації звуку до відео

Компанія Google DeepMind розробляє технологію на базі штучного інтелекту для створення саундтреків до відео.

Дослідницький підрозділ Google у сфері ШІ та інші організації вже створювали моделі для відео, але вони не здатні генерувати під них звукові ефекти. Для цих цілей DeepMind використовує технологію V2A (video-to-audio).

«Моделі для генерації відео розвиваються неймовірними темпами, але багато сучасних систем не створюють звукову доріжку. Одним із наступних важливих кроків на шляху до генерації фільмів є поява саундтреків до цих німих відеороликів», — йдеться в повідомленні DeepMind.

Технологія V2A від DeepMind використовує промпти в поєднанні з відео для створення музики, звукових ефектів і діалогів. Наприклад: «Пульсуюча під водою медуза, морське життя, океан». Дифузійна ШІ-модель, що лежить в основі V2A, навчена на базі звуків, розшифровок діалогів і відеокліпів.

Для створення звуку до відео використовувалися такі підказки: кінематограф, трилер, фільм жахів, музика, напруга, атмосфера, кроки по бетону.

DeepMind зазначає, що технологія поки що не ідеальна, а звук не можна назвати високоякісним і переконливим. Перед повноцінним запуском V2A потрібні доопрацювання і тестування.

Нагадаємо, у лютому OpenAI представила нову генеративну ШІ-модель Sora, яка дає змогу перетворювати текст на відео.

У червні вчені з Гарварду і DeepMind створили віртуального щура зі штучним інтелектом як мозком.

Раніше дочірня компанія Google представила генеративну ШІ-модель Genie для створення ігор.

Источник

No votes yet.

Please wait...

Залишити відповідь

Google розробить ШІ-модель для генерації звуку до відео

Залишити відповідьСкасувати відповідь

Останні Новини

“Курка” та “Енциклопедія” підштовхнули збут Cher’17. Яка ціна шаленої популярності?

Розвиток через співпрацю та суспільну користь. Досвід Unit Development

Зимові вимкнення невідворотні: що чекає на українців після свіжих атак на енергомережу?