اختراق في تكنولوجيا توليد الفيديو متعدد الأنماط، ما الفرص التي تمتلكها الذكاء الاصطناعي في Web3؟

7/9/2025, 10:18:15 AM
تتناول هذه المقالة التح breakthroughs في تقنية توليد الفيديو متعدد النماذج (مثل EX-4D من Byte و Google Veo وغيرها) وتناقش تأثيرها العميق على اقتصاد المبدعين و Web3 AI.

بصرف النظر عن "الاستغراق" في توطين الذكاء الاصطناعي، فإن أكبر تغيير في قطاع الذكاء الاصطناعي مؤخرًا هو الاختراق التكنولوجي في توليد الفيديو متعدد الوسائط، الذي تطور من دعم توليد الفيديو القائم على النصوص فقط إلى تكنولوجيا توليد متكاملة تمامًا تجمع بين النصوص والصور والصوت.

إليك بعض الأمثلة على الاختراقات التكنولوجية التي يمكن للجميع تجربتها:

1) تفتح ByteDance رمز مصدر إطار العمل EX-4D: تتحول مقاطع الفيديو الأحادية على الفور إلى محتوى 4D ذو وجهات نظر حرة، بمعدل قبول من المستخدمين يبلغ 70.7%. وهذا يعني أنه بالنسبة لمقطع الفيديو العادي، يمكن للذكاء الاصطناعي تلقائيًا توليد تأثيرات العرض من أي زاوية، وهو ما كان يتطلب سابقًا فريق نمذجة ثلاثية الأبعاد محترف لتحقيقه.

2) منصة Baidu "Hui Xiang": تولد فيديو مدته 10 ثوانٍ من صورة واحدة، مدعية تحقيق جودة "مستوى الأفلام". ومع ذلك، لا يزال يتعين رؤية ما إذا كان هذا مبالغًا فيه من قبل التسويق حتى تحديث النسخة الاحترافية في أغسطس.

3) جوجل ديب مايند فيو: يمكن أن تحقق توليد فيديو بدقة 4K + مزامنة الأصوات البيئية. النقطة التكنولوجية الرئيسية هي تحقيق قدرة "المزامنة"، حيث كان سابقًا يتم دمج نظامين للفيديو والصوت. لتحقيق مطابقة حقيقية على مستوى الدلالات، يجب التغلب على تحديات كبيرة، مثل المشاهد المعقدة، حيث يجب معالجة مزامنة حركات المشي في الفيديو والأصوات الناتجة عن الخطوات.

4) محتوى Douyin: 8 مليار معلمة، 2.3 ثانية لتوليد فيديو بدقة 1080p، بتكلفة 3.67 يوان/5 ثوانٍ. بصراحة، فإن التحكم في التكلفة هذا جيد جداً، لكن حالياً، بالنظر إلى جودة التوليد، فإنه لا يزال أقل من المستوى عند مواجهة مشاهد معقدة.

لماذا يُقال إن هذه الحالات لها قيمة ومعنى كبيرين من حيث الاختراقات في جودة الفيديو وتكاليف الإنتاج وسيناريوهات التطبيق؟

1. من حيث الاختراقات في القيمة التكنولوجية، فإن تعقيد إنشاء فيديو متعدد الأنماط غالبًا ما يكون أسيًا. تتكون صورة الإطار الواحد من حوالي 10^6 بكسل، ويجب أن يضمن الفيديو اتساقًا زمنيًا (100 إطار على الأقل)، بالإضافة إلى مزامنة الصوت (10^4 نقطة عينة في الثانية)، مع مراعاة الاتساق المكاني ثلاثي الأبعاد.

باختصار، التعقيد الفني ليس منخفضًا. في الأصل، كان نموذجًا ضخمًا يتعامل مع جميع المهام بشكل مباشر. يُقال إن سُورا أحرق عشرات الآلاف من H100 لتحقيق قدرات توليد الفيديو. الآن، يمكن تحقيق ذلك من خلال التحلل التعددي والعمل التعاوني للنماذج الكبيرة. على سبيل المثال، يقوم نموذج EX-4D الخاص بـ Byte في الواقع بتقسيم المهام المعقدة إلى: وحدة تقدير العمق، وحدة تحويل وجهة النظر، وحدة التداخل الزمني، وحدة تحسين العرض، وهلم جرا. كل وحدة تتخصص في مهمة واحدة ثم تنسق من خلال آلية.

2. من حيث خفض التكاليف: فإنه يتضمن في الواقع تحسين بنية الاستدلال نفسها، بما في ذلك استراتيجية التوليد متعددة الطبقات، حيث يتم إنشاء هيكل منخفض الدقة أولاً ثم يتم تعزيز محتوى التصوير عالي الدقة؛ وآلية إعادة استخدام التخزين المؤقت، وهي إعادة استخدام مشاهد مشابهة؛ وتخصيص الموارد الديناميكي، والذي يعدل في الواقع عمق النموذج استنادًا إلى تعقيد المحتوى المحدد.

مع هذه المجموعة من التحسينات، سنحقق نتيجة قدرها 3.67 يوان لكل 5 ثوانٍ لمحتوى Douyin.

3. من حيث تأثير التطبيق، فإن إنتاج الفيديو التقليدي هو لعبة مكثفة لرأس المال: المعدات، المواقع، الممثلون، ما بعد الإنتاج؛ من الطبيعي أن يكلف إعلان مدته 30 ثانية مئات الآلاف. الآن، يقوم الذكاء الاصطناعي بضغط هذه العملية بالكامل إلى موجه بالإضافة إلى بضع دقائق من الانتظار، ويمكنه تحقيق زوايا وتأثيرات خاصة يصعب تحقيقها في التصوير التقليدي.

هذا يحول الحواجز التقنية والمالية الأصلية لإنتاج الفيديو إلى إبداع وجمالية، مما قد يعزز إعادة ترتيب الاقتصاد الإبداعي بأكمله.

تطرح السؤال، ما هي العلاقة بين التغيرات في جانب الطلب على تكنولوجيا الذكاء الاصطناعي في ويب 2 وويب 3؟

1. أولاً، التغيير في هيكل الطلب على قوة الحوسبة. سابقًا، في الذكاء الاصطناعي، كانت المنافسة تعتمد على الحجم؛ من يمتلك مجموعات GPU متجانسة أكبر سيفوز. ومع ذلك، فإن الطلب على توليد الفيديو متعدد الأنماط يتطلب مزيجًا متنوعًا من قوة الحوسبة، مما قد ينشئ حاجة لقوة حوسبة غير مستخدمة موزعة، بالإضافة إلى نماذج دقيقة موزعة مختلفة، وخوارزميات، ومنصات استنتاج.

2. ثانياً، سيزداد الطلب على تعليم البيانات أيضاً. يتطلب إنتاج فيديو بمستوى احترافي: أوصاف دقيقة للمشاهد، صور مرجعية، أنماط صوتية، مسارات حركة الكاميرا، ظروف الإضاءة، إلخ، والتي ستصبح متطلبات جديدة لتعليم البيانات المهنية. يمكن استخدام طرق التحفيز في Web3 لتشجيع المصورين، والمهندسين الصوتيين، وفناني الرسومات ثلاثية الأبعاد، وغيرهم على تقديم عناصر بيانات احترافية، مما يعزز قدرة توليد الفيديو بالذكاء الاصطناعي من خلال تعليم البيانات العمودية المتخصصة.

3. أخيرًا، يجدر بالذكر أنه عندما تنتقل الذكاء الاصطناعي تدريجيًا من تخصيص الموارد الكبيرة المركزية إلى التعاون المعياري، فإنه يمثل في حد ذاته طلبًا جديدًا على المنصات اللامركزية. في ذلك الوقت، ستشكل قوة الحوسبة والبيانات والنماذج والحوافز، وغيرها، معًا دوامة ذاتية التعزيز، والتي بدورها ستدفع دمج سيناريوهات web3AI و web2AI.

بيان:

  1. هذه المقالة معاد نشرها من [ tmel0211tmel0211]، حقوق النشر تعود للمؤلف الأصلي [tmel0211] إذا كان لديك أي اعتراضات على إعادة الطباعة، يرجى الاتصال بفريق Gate Learnسيتولى الفريق معالجة ذلك بأسرع ما يمكن وفقًا للإجراءات ذات الصلة.
  2. تنبيه: الآراء والأفكار المعبر عنها في هذه المقالة هي فقط آراء الكاتب ولا تشكل أي نصيحة استثمارية.
  3. الإصدارات الأخرى من المقالة مترجمة بواسطة فريق Gate Learn، ما لم يُذكر خلاف ذلك.بوابةلا يجوز تحت أي ظرف من الظروف نسخ المقالات المترجمة أو نشرها أو سرقتها.

مشاركة

تقويم العملات الرقمية

تحديثات المشروع
Etherex ستطلق عملة REX في 6 أغسطس.
REX
22.27%
2025-08-06
يوم الحوكمة والمطورين النادر في لاس فيغاس
ستستضيف Cardano يوم التطوير النادر والحكم في لاس فيغاس، من 6 إلى 7 أغسطس، ويشمل ورش العمل، hackathon ، ومناقشات جماعية تركز على التطوير الفني ومواضيع الحكم.
ADA
-3.44%
2025-08-06
البلوكتشين .Rio في ريو دي جانيرو
ستشارك Stellar في مؤتمر Blockchain.Rio، المقرر عقده في ريو دي جانيرو، من 5 إلى 7 أغسطس. سيتضمن البرنامج كلمات رئيسية ومناقشات جماعية تضم ممثلين عن نظام Stellar البيئي بالتعاون مع الشركاء Cheesecake Labs و NearX.
XLM
-3.18%
2025-08-06
ندوة عبر الإنترنت
أعلنت Circle عن ندوة مباشرة بعنوان "عصر قانون GENIUS يبدأ"، المقرر عقدها في 7 أغسطس 2025، الساعة 14:00 بتوقيت UTC. ستستكشف الجلسة تداعيات قانون GENIUS الذي تم تمريره حديثًا - الإطار التنظيمي الفيدرالي الأول لعملات الدفع المستقرة في الولايات المتحدة. سيقود دانيتي ديسبارتي وكوري ثين من Circle النقاش حول كيفية تأثير التشريع على ابتكار الأصول الرقمية، والوضوح التنظيمي، وقيادة الولايات المتحدة في البنية التحتية المالية العالمية.
USDC
-0.03%
2025-08-06
AMA على X
ستستضيف Ankr AMA على X في 7 أغسطس الساعة 16:00 بتوقيت UTC، مع التركيز على عمل DogeOS في بناء طبقة التطبيقات لـ DOGE.
ANKR
-3.23%
2025-08-06

المقالات ذات الصلة

أفضل 15 عملة رقمية تعتمد على الذكاء الاصطناعي للاستثمار في عام 2024
مبتدئ

أفضل 15 عملة رقمية تعتمد على الذكاء الاصطناعي للاستثمار في عام 2024

هل تبحث عن أفضل استثمارات الذكاء الاصطناعي في مجال العملات الرقمية؟ استكشف أفضل 15 عملة رقمية ذات ذكاء اصطناعي للاستثمار في عام 2024 وامنح مستقبلًا ماليًا مستقرًا بتقنية متطورة.
7/14/2024, 3:41:26 PM
ما هي توكينات NFT في تليجرام؟
متوسط

ما هي توكينات NFT في تليجرام؟

يناقش هذا المقال تطور تليجرام إلى تطبيق مدعوم بتقنية NFT، مدمجًا تقنية البلوكشين لتحديث الهدايا الرقمية والملكية. اكتشف الميزات الرئيسية والفرص للفنانين والمبدعين، ومستقبل التفاعلات الرقمية مع NFTs على تليجرام.
1/10/2025, 1:41:40 AM
كيفية رصد وتتبع الأموال الذكية في العملات الرقمية
مبتدئ

كيفية رصد وتتبع الأموال الذكية في العملات الرقمية

يستكشف هذا المقال كيفية الاستثمار من خلال تتبع الأموال الذكية في سوق العملات الرقمية. الأموال الذكية تشير عادة إلى المشاركين في السوق ذوي الأداء المتميز، مثل محافظ الحيتان، ومحافظ العادية ذات معدلات فوز عالية في المعاملات، وما إلى ذلك. يقدم هذا المقال عدة خطوات لتحديد وتتبع هذه المحافظ.
7/24/2024, 8:49:42 AM
أي منصة تبني أفضل وكلاء الذكاء الاصطناعي؟ نختبر ChatGPT و Claude و Gemini وغيرها
مبتدئ

أي منصة تبني أفضل وكلاء الذكاء الاصطناعي؟ نختبر ChatGPT و Claude و Gemini وغيرها

يقارن هذا المقال ويختبر خمسة منصات AI الرئيسية (ChatGPT و Google Gemini و HuggingChat و Claude و Mistral AI)، مقيّمًا سهولة الاستخدام وجودة النتائج في إنشاء وكلاء AI.
1/9/2025, 7:43:03 AM
مراجعة كاملة: كيف وُلِدَ مانوس؟
متوسط

مراجعة كاملة: كيف وُلِدَ مانوس؟

يقدم هذا المقال تحليلاً عميقًا لخلفية ولادة Manus.im، ومفاهيم المنتج، وممارساتها المبتكرة في مجال الذكاء الاصطناعي.
3/17/2025, 7:40:21 AM
ارتفع مع GOAT: التكهنات والمخاوف وراء الذكاء الاصطناعي ميمز | مراجعة 100X
متوسط

ارتفع مع GOAT: التكهنات والمخاوف وراء الذكاء الاصطناعي ميمز | مراجعة 100X

جمع بين الذكاء الاصطناعي والميمات أدى إلى خلق قطاع ميمات الذكاء الاصطناعي أكثر تخيلًا. يستعرض هذا المقال تاريخ تطوير GOAT، محللًا الفجوات المعلوماتية الهامة في السوق اللامركزي الحالي، والمخاوف المحيطة بميمات الذكاء الاصطناعي، واتجاهات التكهن والمنطق المستقبلي للقطاع.
10/30/2024, 1:30:09 PM
ابدأ التداول الآن
اشترك وتداول لتحصل على جوائز ذهبية بقيمة
100 دولار أمريكي
و
5500 دولارًا أمريكيًا
لتجربة الإدارة المالية الذهبية!