Прорив у технології багатоканальної генерації відео, які можливості має Web3 AI?

7/9/2025, 10:18:15 AM
Середній
ШІтехніка
Ця стаття аналізує прориви у технології мультимодального відеогенерування (таких як EX-4D від Byte, Google Veo тощо) та обговорює їх глибокий вплив на економіку творців та Web3 AI.

Окрім "занурення" локалізації ШІ, найбільша зміна в секторі ШІ останнім часом - це технологічний прорив у генерації мультимодальних відео, який еволюціонував від підтримки чисто текстової генерації відео до повністю інтегрованої технології генерації, що поєднує текст, зображення та аудіо.

Ось кілька прикладів технологічних проривів, які можуть відчути всі:

1) ByteDance випускає EX-4D фреймворк з відкритим кодом: Монокулярне відео миттєво перетворюється у 4D контент з вільною точкою зору, з рівнем прийняття користувачами 70,7%. Це означає, що для звичайного відео ШІ може автоматично генерувати ефекти перегляду з будь-якого кута, що раніше вимагало професійної команди 3D моделювання.

2) Платформа Baidu "Hui Xiang": генерує 10-секундне відео з одного зображення, стверджуючи, що досягає "кінематографічної" якості. Однак, чи є це перебільшенням з боку маркетингу, залишиться незрозумілим до оновлення Pro-версії у серпні.

3) Google DeepMind Veo: Може досягати генерації 4K відео + синхронізації звуку навколишнього середовища. Ключовою технологічною особливістю є досягнення можливості "синхронізації", оскільки раніше це було зрощення двох систем для відео та аудіо. Для досягнення справжнього семантичного відповідності необхідно подолати значні виклики, такі як у складних сценах, де потрібно вирішити синхронізацію ходьби у відео та відповідних звуків кроків.

4) Контент Douyin: 8 мільярдів параметрів, 2,3 секунди для генерації відео 1080p, коштує 3,67 юаня/5 секунд. Якщо чесно, цей контроль витрат досить хороший, але наразі, враховуючи якість генерації, він все ще відстає при зустрічі зі складними сценами.

Чому говорять, що ці випадки мають значну вартість і значення з точки зору проривів у якості відео, виробничих витратах і сценаріях застосування?

1. Щодо проривів у технологічній цінності, складність генерації мультимодального відео часто є експоненційною. Одна рамка зображення складається приблизно з 10^6 пікселів, а відео повинно забезпечувати тимчасову узгодженість (принаймні 100 кадрів), разом із синхронізацією аудіо (10^4 точки вибірки на секунду), водночас враховуючи 3D просторову узгодженість.

У підсумку, технічна складність не є низькою. Спочатку це була надзвичайно велика модель, яка вирішувала всі завдання безпосередньо. Кажуть, що Sora спалив десятки тисяч H100 для досягнення можливостей генерації відео. Тепер це може бути реалізовано через модульну декомпозицію та співпрацю великих моделей. Наприклад, EX-4D від Byte насправді розбиває складні завдання на: модуль оцінки глибини, модуль перетворення точки зору, модуль тимчасової інтерполяції, модуль оптимізації рендерингу тощо. Кожен модуль спеціалізується на одній задачі, а потім координується через механізм.

2. Щодо зниження витрат: насправді це включає оптимізацію самої архітектури міркування, зокрема, стратегія генерації в кілька шарів, де спочатку створюється скелет низької роздільної здатності, а потім покращується контент з високою роздільною здатністю; механізм повторного використання кешу, який є повторним використанням подібних сцен; та динамічне розподілення ресурсів, яке насправді регулює глибину моделі залежно від складності конкретного контенту.

З цим набором оптимізацій ми досягнемо результату 3.67 юаня за 5 секунд для Douyin ContentV.

3. Що стосується впливу на застосування, традиційне виробництво відео є капіталомісткою справою: обладнання, приміщення, актори, пост-продакшн; нормально, коли 30-секундна реклама коштує сотні тисяч. Тепер штучний інтелект стискає весь цей процес до запиту плюс кілька хвилин очікування, і може досягти перспектив і спецефектів, які важко досягти традиційною зйомкою.

Це перетворює оригінальні технічні та фінансові бар'єри відеовиробництва на креативність і естетику, що може сприяти перетворенню всієї економіки творців.

Виникає питання, яке відношення між змінами на стороні попиту веб2 AI технології та веб3 AI?

1. По-перше, зміна в структурі попиту на обчислювальну потужність. Раніше в ІП, конкуренція базувалася на масштабах; той, хто мав більше однорідних кластерів GPU, вигравав. Однак попит на мультимодальну генерацію відео вимагає різноманітного поєднання обчислювальної потужності, що може створити потребу в розподіленій невикористаній обчислювальній потужності, а також у різних розподілених моделях доопрацювання, алгоритмах та платформах інференції.

2. По-друге, попит на маркування даних також зміцниться. Генерація відео професійного рівня вимагає: точних описів сцен, референсних зображень, аудіо стилів, траєкторій руху камери, умов освітлення тощо, що стане новими професійними вимогами до маркування даних. Використання методів стимулювання Web3 може заохотити фотографів, звукових інженерів, 3D-художників та інших надавати професійні елементи даних, підвищуючи можливості генерації відео ШІ завдяки спеціалізованому вертикальному маркуванню даних.

3. Нарешті, варто згадати, що коли ШІ поступово переходить від централізованого великомасштабного розподілу ресурсів до модульної співпраці, він сам по собі представляє новий попит на децентралізовані платформи. У цей час обчислювальна потужність, дані, моделі, стимули тощо спільно сформують самопідтримувальне колесо, яке, в свою чергу, стимулюватиме інтеграцію сценаріїв web3AI та web2AI.

Заява:

  1. Ця стаття перепродується з [tmel0211tmel0211],Авторські права належать оригінальному автору [tmel0211] Якщо у вас є заперечення щодо повторного видання, будь ласка, зв'яжіться Команда Gate LearnКоманда обробить це якомога швидше відповідно до відповідних процедур.
  2. Застереження: Думки та погляди, висловлені в цій статті, є виключно думками автора і не є інвестиційною порадою.
  3. Інші мовні версії статті перекладені командою Gate Learn, якщо не вказано інше.ГейтНі за яких обставин перекладені статті не можуть бути скопійовані, розповсюджені або плагіат.

Поділіться

Криптокалендар

Оновлення проекту
Etherex запустить токен REX 6 серпня.
REX
22.27%
2025-08-06
Рідкісний день розробників та управління в Лас-Вегасі
Cardano проведе Рідкісний День Розробників і Управління в Лас-Вегасі з 6 по 7 серпня, з майстер-класами, хакатонами та панельними дискусіями, зосередженими на технічному розвитку та темах управління.
ADA
-3.44%
2025-08-06
Блокчейн.Rio у Ріо-де-Жанейро
Stellar візьме участь у конференції Blockchain.Rio, яка запланована в Ріо-де-Жанейро з 5 по 7 серпня. Програма включатиме ключові виступи та панельні дискусії за участю представників екосистеми Stellar у співпраці з партнерами Cheesecake Labs та NearX.
XLM
-3.18%
2025-08-06
Вебінар
Circle оголосила про проведення вебінару Executive Insights під назвою "Ера GENIUS Act починається", запланованого на 7 серпня 2025 року о 14:00 UTC. У сесії буде розглянуто наслідки нещодавно прийнятого закону GENIUS Act — першої федеральної регуляторної рамки для платіжних стейблкоїнів у Сполучених Штатах. Обговорення, яке проведуть Дант Диспарт і Кері Тен з Circle, зосередиться на тому, як це законодавство вплине на інновації у сфері цифрових активів, регуляторну ясність та лідерство США у глобальній фінансовій інфраструктурі.
USDC
-0.03%
2025-08-06
АМА на Х
Ankr проведе AMA в X 7 серпня о 16:00 UTC, зосередившись на роботі DogeOS зі створення прикладного рівня для DOGE.
ANKR
-3.23%
2025-08-06

Статті на тему

Що таке крипто-наративи? Топ-наративи на 2025 рік (оновлено)
Початківець

Що таке крипто-наративи? Топ-наративи на 2025 рік (оновлено)

Мемокойни, ліквідні токени з перезаливкою, похідні ліквідної стейкінгу, модульність блокчейну, Layer 1, Layer 2 (оптимістичні ролапи та ролапи з нульовим знанням), BRC-20, DePIN, Telegram криптовалютні торгові боти, ринки прогнозування та RWAs - це деякі наративи, на які варто звернути увагу в 2024 році.
11/26/2024, 2:23:40 AM
Що таке OpenLayer? Все, що вам потрібно знати про OpenLayer
Середній

Що таке OpenLayer? Все, що вам потрібно знати про OpenLayer

OpenLayer - це взаємодійний шар штучного інтелекту, призначений для модернізації потоків даних в цифрових екосистемах. Він може бути використаний для бізнесу та для навчання моделей штучного інтелекту.
2/7/2025, 2:57:43 AM
Sentient: поєднання найкращих моделей відкритого та закритого штучного інтелекту
Середній

Sentient: поєднання найкращих моделей відкритого та закритого штучного інтелекту

Мета-опис: Sentient - це платформа для моделей Clopen AI, яка поєднує найкраще з відкритих та закритих моделей. Платформа має два ключові компоненти: OML та Sentient Protocol.
11/18/2024, 3:52:31 AM
Яка платформа будує найкращих AI-агентів? Ми тестуємо ChatGPT, Claude, Gemini та інші
Початківець

Яка платформа будує найкращих AI-агентів? Ми тестуємо ChatGPT, Claude, Gemini та інші

Ця стаття порівнює та тестує п'ять основних платформ штучного інтелекту (ChatGPT, Google Gemini, HuggingChat, Claude та Mistral AI), оцінюючи їх зручність використання та якість результатів у створенні агентів штучного інтелекту.
1/9/2025, 7:43:03 AM
Що таке AIXBT від Virtuals? Все, що вам потрібно знати про AIXBT
Середній

Що таке AIXBT від Virtuals? Все, що вам потрібно знати про AIXBT

AIXBT від Virtuals - це криптопроект, що поєднує блокчейн, штучний інтелект та великі дані з криптотенденціями та цінами.
1/7/2025, 6:18:13 AM
Як виявляти та відстежувати розумні гроші в криптовалюті
Початківець

Як виявляти та відстежувати розумні гроші в криптовалюті

Ця стаття досліджує, як інвестувати, відстежуючи Розумні Гроші на ринку криптовалюти. Розумні гроші зазвичай відносяться до учасників ринку з видатними результатами, таких як великі гаманці, звичайні гаманці з високою виграшною ставкою у транзакціях тощо. Ця стаття надає кілька кроків для визначення та відстеження цих гаманців.
7/24/2024, 8:49:42 AM
Розпочати зараз
Зареєструйтеся та отримайте ваучер на
$100
!