多模態視頻生成技術突破，Web3 AI 有何機會？

7/9/2025, 10:18:15 AM

中級

人工智能技術

本文解析多模態視頻生成技術突破（字節 EX-4D、Google Veo 等），並探討其對創作者經濟與 Web3 AI 的深遠影響。

除了AI本地化“下沉”之外，AI賽道近段時間最大的變化莫過於：多模態視頻生成的技術突破了，從原先支持純文本生成視頻演變成文本+圖像+音頻的全鏈路整合生成技術。

隨便說幾個技術突破案例，大家感受下：

1）字節跳動開源EX-4D框架：單目視頻秒變自由視角4D內容，用戶認可度達到70.7%。也就是說，給一個普通視頻，AI能自動生成任意角度的觀看效果，這在以前需要專業的3D建模團隊才能搞定；

2）百度“繪想”平台：一張圖生成10秒視頻，宣稱可以達到“電影級”質量。但是不是由營銷包裝誇大的成分，要等8月份的Pro版本更新後實際看效果；

3）Google DeepMind Veo：可以達到4K視頻+環境音的同步生成。關鍵技術亮點是“同步”能力的達成，之前都是視頻和音頻兩套系統拼接，要能做到真正語義層面的匹配需要克服較大的挑戰，比如復雜場景下，要做到畫面中走路動作和腳步聲的對應音畫同步問題；

4）抖音ContentV：80億參數，2.3秒生成1080p視頻，成本3.67元/5秒。老實說這個成本控制的還可以，但目前生成質量看，遇到復雜的場景還差強人意；

爲什麼說這些案例在視頻質量、生成成本、應用場景等方面的突破，價值和意義都很大？

1、技術價值突破方面，一個多模態視頻生成的復雜度往往是指數級的，單幀圖像生成大概10^6個像素點，視頻要保證時序連貫性（至少100幀），再加上音頻同步（每秒10^4個採樣點），還要考慮3D空間一致性。

綜合下來，技術復雜度可不低，原本都是一個超大模型硬剛所有任務，據說Sora燒了數萬張H100才具備的視頻生成能力。現在可以通過模塊化分解+大模型分工協作來實現。比如，字節的EX-4D實際上是把復雜任務拆解成：深度估計模塊、視角轉換模塊、時序插值模塊、渲染優化模塊等等。每個模塊專門幹一件事，然後通過協調機制配合。

2、成本縮減方面：背後其實推理架構本身的優化，包括分層生成策略，先低分辨率生成骨架再高分辨增強成像內容；緩存復用機制，就是相似場景的復用；動態資源分配，其實就是根據具體內容復雜度調整模型深度。

這樣一套優化下來，才會有抖音ContentV的3.67元/5秒的結果。

3、應用衝擊方面，傳統視頻制作是重資產遊戲：設備、場地、演員、後期，一個30秒廣告片幾十萬制作費很正常。現在AI把這套流程壓縮到Prompt+幾分鍾等待，而且能實現傳統拍攝難以達到的視角和特效。

這樣一來就把原本視頻制作存在的技術和資金門檻變成了創意和審美，可能會促進整個創作者經濟的再洗牌。

問題來了，說這麼多web2AI技術需求端的變化，和web3AI有啥關係呢？

1、首先，算力需求結構的改變，以前AI拼算力規模，誰有更多同質化的GPU集羣誰就贏，但多模態視頻生成需求的是多樣化的算力組合，對於分布式的閒置算力，以及各個分布式微調模型、算法、推理平台上都可能產生需求；

2、其次，數據標注的需求也會加強，生成一個專業級視頻需要：精準的場景描述、參考圖像、音頻風格、攝像機運動軌跡、光照條件等等都會成爲專業的數據標注新需求，用web3的激勵方式，可以刺激攝影師、音效師、3D藝術家等提供專業的數據素，用專業垂類的數據標注增強AI視頻生成的能力；

3、最後，值得一說的是，當AI從過去集中式大規模資源調配逐漸趨於模塊化協作本身就是一種對去中心化平台的新需求。屆時算力、數據、模型、激勵等共同組合形成自我強化的飛輪，繼而帶動web3AI 和web2AI場景的大融合。

聲明：

本文轉載自 [tmel0211]，著作權歸屬原作者 [tmel0211]，如對轉載有異議，請聯繫 Gate Learn 團隊，團隊會根據相關流程盡速處理。
免責聲明：本文所表達的觀點和意見僅代表作者個人觀點，不構成任何投資建議。
文章其他語言版本由Gate Learn 團隊翻譯，在未提及 Gate 的情況下不得復制、傳播或抄襲經翻譯文章。

幣圈日曆

項目進展

Etherex 將於 8 月 6 日推出代幣 REX。

REX

22.27%

2025-08-06

拉斯維加斯的稀有開發與治理日

Cardano將在拉斯維加斯舉辦稀有開發與治理日，時間爲8月6日至7日，活動包括研討會、黑客馬拉松和以技術開發及治理主題爲重點的小組討論。

ADA

-3.44%

2025-08-06

區塊鏈.Rio在裏約熱內盧

Stellar 將參加定於 8 月 5 日至 7 日在裏約熱內盧舉行的 Blockchain.Rio 大會。該節目將包括主題演講和小組討論，屆時將邀請 Stellar 生態系統的代表與合作夥伴 Cheesecake Labs 和 NearX 共同參與。

XLM

-3.18%

2025-08-06

網路研討會

Circle 宣布將於 2025 年 8 月 7 日 14:00 UTC 舉辦名爲“GENIUS Act 時代開始”的實時高管見解網路研討會。此次會議將探討新通過的 GENIUS Act 的影響——這是美國第一個針對支付穩定幣的聯邦監管框架。Circle 的 Dante Disparte 和 Corey Then 將主導討論該立法如何影響數字資產創新、監管透明度，以及美國在全球金融基礎設施中的領導地位.

USDC

-0.03%

2025-08-06

X 上的 AMA

Ankr將在8月7日16:00 UTC於X平台舉辦一次AMA，重點討論DogeOS在爲狗狗幣構建應用層方面的工作。

ANKR

-3.23%

2025-08-06