多模態視頻生成技術突破,Web3 AI 有何機會?

7/9/2025, 10:18:15 AM
本文解析多模態視頻生成技術突破(字節 EX-4D、Google Veo 等),並探討其對創作者經濟與 Web3 AI 的深遠影響。

除了AI本地化“下沉”之外,AI賽道近段時間最大的變化莫過於:多模態視頻生成的技術突破了,從原先支持純文本生成視頻演變成文本+圖像+音頻的全鏈路整合生成技術。

隨便說幾個技術突破案例,大家感受下:

1)字節跳動開源EX-4D框架:單目視頻秒變自由視角4D內容,用戶認可度達到70.7%。也就是說,給一個普通視頻,AI能自動生成任意角度的觀看效果,這在以前需要專業的3D建模團隊才能搞定;

2)百度“繪想”平台:一張圖生成10秒視頻,宣稱可以達到“電影級”質量。但是不是由營銷包裝誇大的成分,要等8月份的Pro版本更新後實際看效果;

3)Google DeepMind Veo:可以達到4K視頻+環境音的同步生成。關鍵技術亮點是“同步”能力的達成,之前都是視頻和音頻兩套系統拼接,要能做到真正語義層面的匹配需要克服較大的挑戰,比如復雜場景下,要做到畫面中走路動作和腳步聲的對應音畫同步問題;

4)抖音ContentV:80億參數,2.3秒生成1080p視頻,成本3.67元/5秒。老實說這個成本控制的還可以,但目前生成質量看,遇到復雜的場景還差強人意;

爲什麼說這些案例在視頻質量、生成成本、應用場景等方面的突破,價值和意義都很大?

1、技術價值突破方面,一個多模態視頻生成的復雜度往往是指數級的,單幀圖像生成大概10^6個像素點,視頻要保證時序連貫性(至少100幀),再加上音頻同步(每秒10^4個採樣點),還要考慮3D空間一致性。

綜合下來,技術復雜度可不低,原本都是一個超大模型硬剛所有任務,據說Sora燒了數萬張H100才具備的視頻生成能力。現在可以通過模塊化分解+大模型分工協作來實現。比如,字節的EX-4D實際上是把復雜任務拆解成:深度估計模塊、視角轉換模塊、時序插值模塊、渲染優化模塊等等。每個模塊專門幹一件事,然後通過協調機制配合。

2、成本縮減方面:背後其實推理架構本身的優化,包括分層生成策略,先低分辨率生成骨架再高分辨增強成像內容;緩存復用機制,就是相似場景的復用;動態資源分配,其實就是根據具體內容復雜度調整模型深度。

這樣一套優化下來,才會有抖音ContentV的3.67元/5秒的結果。

3、應用衝擊方面,傳統視頻制作是重資產遊戲:設備、場地、演員、後期,一個30秒廣告片幾十萬制作費很正常。現在AI把這套流程壓縮到Prompt+幾分鍾等待,而且能實現傳統拍攝難以達到的視角和特效。

這樣一來就把原本視頻制作存在的技術和資金門檻變成了創意和審美,可能會促進整個創作者經濟的再洗牌。

問題來了,說這麼多web2AI技術需求端的變化,和web3AI有啥關係呢?

1、首先,算力需求結構的改變,以前AI拼算力規模,誰有更多同質化的GPU集羣誰就贏,但多模態視頻生成需求的是多樣化的算力組合,對於分布式的閒置算力,以及各個分布式微調模型、算法、推理平台上都可能產生需求;

2、其次,數據標注的需求也會加強,生成一個專業級視頻需要:精準的場景描述、參考圖像、音頻風格、攝像機運動軌跡、光照條件等等都會成爲專業的數據標注新需求,用web3的激勵方式,可以刺激攝影師、音效師、3D藝術家等提供專業的數據素,用專業垂類的數據標注增強AI視頻生成的能力;

3、最後,值得一說的是,當AI從過去集中式大規模資源調配逐漸趨於模塊化協作本身就是一種對去中心化平台的新需求。屆時算力、數據、模型、激勵等共同組合形成自我強化的飛輪,繼而帶動web3AI 和web2AI場景的大融合。

聲明:

  1. 本文轉載自 [tmel0211],著作權歸屬原作者 [tmel0211],如對轉載有異議,請聯繫 Gate Learn 團隊,團隊會根據相關流程盡速處理。
  2. 免責聲明:本文所表達的觀點和意見僅代表作者個人觀點,不構成任何投資建議。
  3. 文章其他語言版本 由Gate Learn 團隊翻譯, 在未提及 Gate 的情況下不得復制、傳播或抄襲經翻譯文章。

分享

幣圈日曆

項目進展
Etherex 將於 8 月 6 日推出代幣 REX。
REX
22.27%
2025-08-06
拉斯維加斯的稀有開發與治理日
Cardano將在拉斯維加斯舉辦稀有開發與治理日,時間爲8月6日至7日,活動包括研討會、黑客馬拉松和以技術開發及治理主題爲重點的小組討論。
ADA
-3.44%
2025-08-06
區塊鏈.Rio在裏約熱內盧
Stellar 將參加定於 8 月 5 日至 7 日在裏約熱內盧舉行的 Blockchain.Rio 大會。該節目將包括主題演講和小組討論,屆時將邀請 Stellar 生態系統的代表與合作夥伴 Cheesecake Labs 和 NearX 共同參與。
XLM
-3.18%
2025-08-06
網路研討會
Circle 宣布將於 2025 年 8 月 7 日 14:00 UTC 舉辦名爲“GENIUS Act 時代開始”的實時高管見解網路研討會。此次會議將探討新通過的 GENIUS Act 的影響——這是美國第一個針對支付穩定幣的聯邦監管框架。Circle 的 Dante Disparte 和 Corey Then 將主導討論該立法如何影響數字資產創新、監管透明度,以及美國在全球金融基礎設施中的領導地位.
USDC
-0.03%
2025-08-06
X 上的 AMA
Ankr將在8月7日16:00 UTC於X平台舉辦一次AMA,重點討論DogeOS在爲狗狗幣構建應用層方面的工作。
ANKR
-3.23%
2025-08-06

相關文章

Arweave:用AO電腦捕捉市場機會
新手

Arweave:用AO電腦捕捉市場機會

以點對點網路為例的分散式存儲創建了一個全域、無需信任且不可變的硬碟驅動器。Arweave是該領域的龍頭,提供具有成本效益的解決方案,確保持久性、不變性性和抗審查性性,這對於 NFT 和 dApp 不斷增長的需求至關重要。
6/7/2024, 1:33:46 AM
區塊鏈盈利能力和發行 - 重要嗎?
中級

區塊鏈盈利能力和發行 - 重要嗎?

在區塊鏈投資領域,工作量證明(工作量證明)和權益證明(權益證明)區塊鏈的盈利能力一直是備受關注的話題。加密貨幣網紅Donovan寫了一篇文章,探討了這些區塊鏈的盈利模式,特別關注以太坊和Solana之間的差異,並分析了區塊鏈盈利能力是否應該成為投資者關注的重點。
6/17/2024, 3:09:39 PM
即將到來的AO代幣:可能是鏈上AI代理的終極解決方案
中級

即將到來的AO代幣:可能是鏈上AI代理的終極解決方案

AO建立在Arweave的鏈上存儲之上,實現了無限可擴展的去中心化計算,允許無限數量的進程並行運行。去中心化 AI 代理由AR託管鏈上,並由 AO 鏈上運行。
6/18/2024, 3:14:52 AM
深度分析:AI和Web3能創造什麼樣的火花?
進階

深度分析:AI和Web3能創造什麼樣的火花?

本文探討了人工智慧 (AI) 和 Web3 技術的快速發展及其整合的潛在價值和影響。AI 擅長提高生產力,而 Web3 通過去中心化改變生產關係。這些技術的結合帶來了數據分析、個人化使用者服務以及安全和隱私保護方面的創新應用。
6/7/2024, 5:04:48 AM
思維網路:全面同態加密和重質押,讓AI專案安全觸手可及
中級

思維網路:全面同態加密和重質押,讓AI專案安全觸手可及

Mind是一種AI重質押解決方案,通過靈活的重質押和共識安全的全同態加密,確保去中心化AI網路的代幣經濟和數據安全。雖然 EigenLayer 使用重質押來保護以太坊生態系統中的不同 AVS,但 Mind Network 使用重質押來確保整個加密生態系統中各種 AI 網路的共識。
6/12/2024, 9:18:16 AM
深入分析API3:利用 OVM 釋放 Oracle 市場顛覆者
中級

深入分析API3:利用 OVM 釋放 Oracle 市場顛覆者

最近,API3獲得了400萬美元的戰略資金費用,由DWF Labs牽頭,幾家知名風險投資公司參與其中。是什麼讓API3與眾不同?它會成為傳統神諭的破壞者嗎?Shisijun對預言機的工作原理,API3 DAO的代幣經濟學以及開創性的OEV網路進行了深入分析。
6/24/2024, 6:52:22 AM
即刻開始交易
註冊並交易即可獲得
$100
和價值
$5500
理財體驗金獎勵!