Прорыв в технологии многомодальной генерации видео, какие возможности у Web3 AI?

7/9/2025, 10:18:15 AM
Эта статья анализирует прорывы в технологии многомодальной генерации видео (таких как EX-4D от Byte, Google Veo и др.) и обсуждает их глубокое влияние на экономику создателей и Web3 AI.

Помимо "погружения" в локализацию ИИ, самым большим изменением в секторе ИИ в последнее время является технологический прорыв в многомодальной генерации видео, который эволюционировал от поддержки чисто текстовой генерации видео к полностью интегрированной технологии генерации, объединяющей текст, изображения и аудио.

Вот несколько примеров технологических прорывов, которые могут испытать все:

1) ByteDance открывает исходный код фреймворка EX-4D: Монохромное видео мгновенно преобразуется в контент 4D с свободной точкой зрения, с уровнем приемлемости пользователей 70,7%. Это означает, что для обычного видео ИИ может автоматически генерировать эффекты просмотра с любого угла, что ранее требовало работы профессиональной команды 3D-моделирования.

2) Платформа Baidu "Hui Xiang": генерирует 10-секундное видео из одного изображения, утверждая, что достигает качества "кинематографического уровня". Однако, является ли это преувеличением маркетинга, еще предстоит увидеть до обновления Pro версии в августе.

3) Google DeepMind Veo: Может достичь генерации 4K видео + синхронизации окружающего звука. Ключевым технологическим достижением является возможность «синхронизации», так как ранее это было слияние двух систем для видео и аудио. Чтобы достичь истинного семантического соответствия, необходимо преодолеть значительные проблемы, такие как в сложных сценах, где необходимо решить вопрос синхронизации действий ходьбы в видео и соответствующих звуков шагов.

4) Контент Douyin: 8 миллиардов параметров, 2,3 секунды для генерации видео 1080p, стоимость 3,67 юаня/5 секунд. Честно говоря, этот контроль затрат довольно хороший, но в настоящее время, учитывая качество генерации, он все еще уступает при столкновении со сложными сценами.

Почему говорится, что эти случаи имеют значительную ценность и значение в отношении прорывов в качестве видео, производственных затратах и сценариях применения?

1. В плане прорывов в технологической ценности сложность создания мультимодального видео часто является экспоненциальной. Одно изображение состоит примерно из 10^6 пикселей, и видео должно обеспечивать временную согласованность (по крайней мере 100 кадров), а также синхронизацию звука (10^4 точки отсчета в секунду), при этом учитывая 3D-пространственную согласованность.

В заключение, техническая сложность невысока. Изначально это была супербольшая модель, которая справлялась со всеми задачами напрямую. Говорят, что Sora сжег десятки тысяч H100, чтобы достичь возможностей генерации видео. Теперь это можно реализовать через модульное разложение и совместную работу крупных моделей. Например, EX-4D от Byte фактически разбивает сложные задачи на: модуль оценки глубины, модуль преобразования точки зрения, модуль временной интерполяции, модуль оптимизации рендеринга и так далее. Каждый модуль специализируется на одной задаче, а затем координируется через механизм.

2. В терминах снижения затрат: это фактически связано с оптимизацией самой архитектуры вывода, включая многоуровневую стратегию генерации, где сначала создается каркас низкого разрешения, а затем улучшается контент изображения высокого разрешения; механизм повторного использования кеша, который заключается в повторном использовании похожих сцен; и динамическое распределение ресурсов, которое фактически корректирует глубину модели в зависимости от сложности конкретного контента.

С этим набором оптимизаций мы добьемся результата 3.67 юаня за 5 секунд для контента Douyin ContentV.

3. Что касается влияния на приложение, традиционное производство видео — это капиталоемкая игра: оборудование, площадки, актеры, пост-продакшн; нормально, что реклама длительностью 30 секунд стоит сотни тысяч. Теперь ИИ сжимает весь этот процесс до команды и нескольких минут ожидания и может достичь перспектив и специальных эффектов, которые трудно получить при традиционной съемке.

Это превращает оригинальные технические и финансовые барьеры видеопроизводства в креативность и эстетику, что может способствовать перетасовке всей экономики создателей.

Возникает вопрос, какова связь между изменениями в спросе на технологии web2 AI и web3 AI?

1. Во-первых, изменение структуры спроса на вычислительную мощность. Ранее в области ИИ конкуренция базировалась на масштабе; кто имел больше однородных кластеров GPU, тот и побеждал. Однако спрос на многомодальную генерацию видео требует разнообразного сочетания вычислительной мощности, что может создать потребность в распределенной неиспользуемой вычислительной мощности, а также различных распределенных моделей дообучения, алгоритмов и платформ для вывода.

2. Во-вторых, спрос на маркировку данных также усилится. Создание видео профессионального уровня требует: точных описаний сцен, эталонных изображений, аудиостилей, траекторий движения камеры, условий освещения и т. д., что станет новыми профессиональными требованиями к маркировке данных. Использование методов стимуляции Web3 может побудить фотографов, звукоинженеров, 3D-художников и других предоставить профессиональные элементы данных, улучшая возможности генерации видео ИИ с помощью специализированной вертикальной маркировки данных.

3. Наконец, стоит упомянуть, что когда ИИ постепенно переходит от централизованного распределения крупных ресурсов к модульному сотрудничеству, это само по себе представляет новый спрос на децентрализованные платформы. В это время вычислительная мощность, данные, модели, стимулы и т. д. совместно сформируют самоподдерживающееся маховик, который, в свою очередь, будет способствовать интеграции сценариев web3AI и web2AI.

Заявление:

  1. Эта статья перепечатана из [tmel0211tmel0211],Авторские права принадлежат оригинальному автору [tmel0211] Если у вас есть какие-либо возражения против перепечатки, пожалуйста, свяжитесь Команда Gate LearnКоманда обработает это как можно быстрее в соответствии с соответствующими процедурами.
  2. Отказ от ответственности: Мнения и взгляды, выраженные в этой статье, принадлежат исключительно автору и не представляют собой инвестиционных рекомендаций.
  3. Другие языковые версии статьи переводятся командой Gate Learn, если не указано иное.ГейтНи при каких обстоятельствах переведенные статьи не должны копироваться, распространяться или заимствоваться.

Пригласить больше голосов

Крипто-календарь

Обновления проекта
Etherex запустит токен REX 6 августа.
REX
22.27%
2025-08-06
Редкий день разработки и управления в Лас-Вегасе
Cardano проведет Rare Dev & Governance Day в Лас-Вегасе с 6 по 7 августа, включая семинары, хакатоны и панельные дискуссии, сосредоточенные на техническом развитии и вопросах управления.
ADA
-3.44%
2025-08-06
Блокчейн.Rio в Рио-де-Жанейро
Stellar примет участие в конференции Blockchain.Rio, которая состоится в Рио-де-Жанейро с 5 по 7 августа. Программа будет включать в себя ключевые выступления и панельные дискуссии с участием представителей экосистемы Stellar в сотрудничестве с партнерами Cheesecake Labs и NearX.
XLM
-3.18%
2025-08-06
Вебинар
Circle объявила о проведении вебинара Executive Insights на тему "Эра Закона GENIUS начинается", который запланирован на 7 августа 2025 года в 14:00 UTC. В ходе сессии будут рассмотрены последствия недавно принятого Закона GENIUS — первой федеральной регулирующей рамки для платежных стейблкоинов в Соединенных Штатах. Данта Диспарте и Кори Тен из Circle возглавят обсуждение того, как законодательство влияет на инновации в области цифровых активов, ясность регулирования и лидерство США в глобальной финансовой инфраструктуре.
USDC
-0.03%
2025-08-06
AMA на X
Ankr проведет AMA в X 7 августа в 16:00 UTC, сосредоточив внимание на работе DogeOS по созданию прикладного слоя для DOGE.
ANKR
-3.23%
2025-08-06

Похожие статьи

Что такое OpenLayer? Все, что вам нужно знать о OpenLayer
Средний

Что такое OpenLayer? Все, что вам нужно знать о OpenLayer

OpenLayer - это взаимодействующий слой данных ИИ, разработанный для модернизации потоков данных в цифровых экосистемах. Он может использоваться для бизнеса и обучения моделей искусственного интеллекта.
2/7/2025, 2:57:43 AM
Что такое Telegram NFT?
Средний

Что такое Telegram NFT?

В этой статье обсуждается превращение Telegram в приложение, работающее на основе NFT, интегрирующее технологию блокчейна для революционизации цифрового дарения и владения. Узнайте основные возможности, возможности для художников и создателей, и будущее цифровых взаимодействий с NFT от Telegram.
1/10/2025, 1:41:40 AM
Что такое AIXBT от Virtuals? Все, что вам нужно знать об AIXBT
Средний

Что такое AIXBT от Virtuals? Все, что вам нужно знать об AIXBT

AIXBT от Virtuals - это криптопроект, объединяющий блокчейн, искусственный интеллект и большие данные с криптотрендами и ценами.
1/7/2025, 6:18:13 AM
Обзор Топ-10 мем-монет ИИ
Средний

Обзор Топ-10 мем-монет ИИ

Мем с искусственным интеллектом — это развивающаяся область, которая сочетает в себе искусственный интеллект, технологию блокчейн и культуру мемов, обусловленную рыночным интересом к креативным токенам и тенденциями, возглавляемыми сообществом. В будущем сектор мемов с искусственным интеллектом может продолжить развиваться с внедрением новых технологий и концепций. Несмотря на текущие активные рыночные показатели, топ-10 проектов могут существенно колебаться или даже меняться из-за изменений в настроениях сообщества.
11/29/2024, 7:04:45 AM
Как определить и отслеживать умные деньги в криптовалюте
Новичок

Как определить и отслеживать умные деньги в криптовалюте

Эта статья исследует, как инвестировать, отслеживая умные деньги на рынке криптовалют. Умные деньги обычно относятся к участникам рынка с выдающимися результатами, такими как китовые кошельки, обычные кошельки с высокими победными ставками в транзакциях и т. д. В этой статье предоставляются несколько шагов для идентификации и отслеживания этих кошельков.
7/24/2024, 8:49:42 AM
Рост и перспективы криптовалют следующего поколения на основе искусственного интеллекта
Средний

Рост и перспективы криптовалют следующего поколения на основе искусственного интеллекта

AI Agents готовы принести инновации и рост в крипто-пространство. В этой статье рассматриваются ключевые тенденции, включая эволюцию текстовых мульти-модальных AI Agents, рост автономных торговых агентов, таких как AIXBT, и потенциал интеллекта стаи. Также рассматриваются экономические модели, определяющие захват ценности токенов и будущее развитие Crypto+AI фреймворков.
12/31/2024, 4:14:35 PM
Начните торговать сейчас
Зарегистрируйтесь сейчас и получите ваучер на
$100
!