Sora by OpenAI لإنشاء الفيديو من النص بالذكاء الاصطناعي

فريق تسويق خطانا

26 أغسطس, 2024

أصدرت OpenAI للتو نموذج Sora الأكثر إثارة لتحويل النص إلى فيديو. إنه نموذج يمكنه إنشاء فيديو من النص. هذا نموذج مثير للغاية يمكن استخدامه في العديد من التطبيقات. في هذا الدفتر، سأراجع التفاصيل الفنية للنموذج وأتكهن بكيفية عمله بناءً على المراجع التي أدرجتها OpenAI في تقرير Sora. لقد قامت شركة OpenAI ببناء نموذج فيديو توليدي جديد ومذهل يسمى Sora والذي يمكنه أخذ وصف نصي قصير وتحويله إلى مقطع فيلم مفصل عالي الدقة يصل طوله إلى دقيقة. لا تنسى مشاركة المحتوى أو الاقتباس منه وترك تعليقات بأي أفكار أو مقترحات.

1 Sora by OpenAI لإنشاء الفيديو من النص بالذكاء الاصطناعي - مدونة خطانا لتكنولوجيا التسويق الإلكتروني

ما هو Sora؟

Sora هو نموذج ذكاء اصطناعي طورته OpenAI لإنشاء مشاهد واقعية وخيالية من تعليمات نصية. تم تصميمه لمساعدة الأشخاص على حل المشكلات التي تتطلب تفاعلًا في العالم الحقيقي ومساعدة المحترفين المبدعين مثل الفنانين التشكيليين والمصممين وصناع الأفلام. في هذه المقالة، سنشارك الحقائق الرئيسية التي تحتاج إلى معرفتها حول Sora، بما في ذلك ميزاته والغرض منه والجمهور المستهدف والوظائف والفوائد.

Sora هي أحدث أداة لتحويل النص إلى فيديو من منشئ ChatGPT OpenAI. يمكنها إنشاء صور متحركة واقعية من مطالبات نصية باللغة الطبيعية. يمكن لـ Sora أيضًا إنشاء شخصيات متعددة وخلفيات معقدة، بالإضافة إلى حركات واقعية المظهر في مقاطع الفيديو التي تصل مدتها إلى دقيقة واحدة.

Sora هو مولد فيديو بالذكاء الاصطناعي قادر على توليد مشاهد معقدة وأنواع حركة وكائنات متعددة وموضوعات وخلفيات مفصلة. علاوة على ذلك، ينتج نموذج Sora من OpenAI جميع المخرجات التي يولدها وفقًا للإصدار الواقعي. بعبارة أخرى، فإن القطة التي تولدها باستخدام Sora من OpenAI ستتصرف وفقًا لقواعد فيزيائية.

OpenAI Sora

لا يعد Sora أول من يعرض هذا النوع من التكنولوجيا. ومع ذلك، على الرغم من أنه غير متاح للاستخدام العام حتى الآن، يشير خبراء الصناعة إلى أن مقاطع الفيديو الخاصة بالأداة التي تم عرضها حتى الآن عالية الجودة، ويشيرون إلى أن تقديم هذه التكنولوجيا يمثل خطوة كبيرة إلى الأمام بالنسبة لـ OpenAI وتوليد النص إلى الفيديو ككل.

حالات استخدام Sora

تتضمن حالات الاستخدام الرئيسية لـ Sora إنشاء مشاهد معقدة وإنشاء لقطات متعددة داخل مقطع فيديو واحد وإنشاء مقاطع فيديو من تعليمات نصية. فيما يلي مزيد من التفاصيل حول كل حالة استخدام:

إنشاء مشاهد معقدة: يمكن لـ Sora إنشاء مشاهد بشخصيات متعددة وأنواع محددة من الحركة وتفاصيل دقيقة للموضوع والخلفية وفهم قيود العالم المادي.

إنشاء لقطات متعددة: يمكن لـ Sora إنتاج لقطات متعددة داخل مقطع فيديو تم إنشاؤه واحدًا، مع الحفاظ بدقة على الشخصيات والأسلوب المرئي من خلال التنبؤ بالعديد من الإطارات في وقت واحد.

إنشاء مقاطع فيديو من النص: يمكن لـ Sora إنشاء مقطع فيديو من تعليمات نصية فقط، باستخدام تقنية إعادة الترجمة من DALL·E 3 لإنشاء ترجمات وصفية للغاية لبيانات التدريب المرئي.

بنية نموذج Sora by OpenAI

يوفر التقرير الفني لـ OpenAI مخططًا عامًا لبنية Sora، مع تسليط الضوء على المكونات الرئيسية مثل تحويل البيانات المرئية إلى بقع، وشبكة ضغط الفيديو، والبقع الكامنة في الزمكان، واستخدام محولات التدرج لتوليد الفيديو. ومع ذلك، وكما هو الحال دائمًا مع OpenAI، يتم الكشف عن نظرة عامة عالية المستوى فقط، مما يترك التفاصيل المعقدة للخيال. تشير المعلومات المتاحة إلى نهج تدريب من مرحلتين: تشفير الفيديو في البداية في مساحة كامنة، يليه استخدام محولات الانتشار لإنشاء الفيديو من هذه المساحة. لقد جمعت المرجع لكل قسم حتى نتمكن من إلقاء نظرة خاطفة على ما قد يكون ممكنًا بناءً على الأوراق الموجودة. بالنسبة لأقسام تحويل البيانات المرئية إلى رقع، وشبكة ضغط الفيديو، والرقع الكامنة في الفضاء الزمني، فإن المراجع هي: ViT وViViT وMAE وNaViT والانتشار الكامن وVAE.

العناصر الأساسية للنموذج قبل جزء محول الانتشار وهي تشمل:

1- ضغط الفيديو إلى الفضاء الكامن

من المحتمل أن تتضمن هذه المرحلة الحاسمة مشفرًا ذاتيًا متغيرًا (VAE) أو إطارًا مشابهًا لضغط الفيديو، مستوحى من التقنيات المستخدمة في تركيب الصور عالية الدقة باستخدام نماذج الانتشار الكامن. والهدف هو ترميز وفك تشفير محتوى الفيديو بكفاءة، وهو جانب محوري من ضغط النموذج.

2- الفصل الكامن في الفضاء الزمني

يبدو أن النموذج يعالج إطارات الفيديو بشكل فردي، على الرغم من أن المنهجيات المحددة تظل غير معلنة بسبب نقص المراجع المباشرة.

3- الدقة المتغيرة

قد يستخدم النموذج نهج "الرقعة والحزم" لتقسيم الفيديو إلى رقع قابلة للإدارة، مما يعزز عملية الترميز. تم التلميح إلى هذه التقنية في الأدبيات المرجعية ولكن لم يتم تفصيلها صراحةً.

إن فهم VAE أمر بالغ الأهمية، لأنه يدعم قدرة النموذج على ضغط الفيديو قبل الانتقال إلى بقع كامنة في الزمكان. من المحتمل أن تتضمن الخطوة الأولية تشريح إطارات الفيديو إلى بقع بدقة متفاوتة، وترميز هذه البقع في مساحات كامنة باستخدام طريقة تشبه المشفر التلقائي لنموذج الانتشار المستقر. أتوقع أنهم يستخدمون نموذج VAE مباشرة من نموذج الانتشار الكامن ثم يحولون الإطارات إلى بقع ثم إلى مساحة كامنة. الفكرة الأساسية هي ضغط الإطارات من مساحة البكسل إلى تمثيلات كامنة. إنها تعمل بشكل جيد حتى مع دقة مختلفة لأنها طريقة تعتمد على البقع. هنا قمت بعمل عرض توضيحي سريع مع 4 بقع من الصورة. يمكن أن تعمل بشكل جيد أيضًا بدقة مختلفة.

ثم قم بتحويل كل إطار إلى بقع كامنة كما هو الحال في تقرير OpenAI تتضمن المرحلة التالية تحويل بيانات الفيديو الكامنة إلى سلسلة من البقع الزمكانية، والتي تعمل كرموز إدخال للمحول. بناءً على المراجع من الفقرة، فإن الطريقة الأكثر ترجيحًا التي اعتمدوها قد تأتي من ViViT: A Video Vision Transformer. قد تتضمن عملية البقعة الكامنة في الزمكان استراتيجيات من ورقة Vivit، مثل أخذ عينات الإطار الموحد أو تضمين Tubelet، والذي يجمع الأخير بين المعلومات المكانية والزمانية في رمز موحد.

إذا استخدموا أخذ عينات الإطار الموحد فسيكون الأمر أكثر مباشرة. ومع ذلك، يستخدم ViViT تضمين Tubelet وبناءً على دراسة الاستئصال يبدو أنه يعمل بشكل أفضل عند استخدام طريقة الإطار المركزي. أعتقد أن Sora قد تتبنى طريقة تضمين Tubelet لأنها تظهر اتساقًا أفضل بكثير بمرور الوقت. أتوقع أن رمز الإدخال يعتمد على Tubelet.

التحدي الأخير يعالج قضايا الدقة المتغيرة، وربما تكييف بنية DiT لاستيعاب الدقة المتنوعة. المرجع الرئيسي من تقرير Sora هو NaViT. يمكن أن يتضمن هذا التكيف تعديلات على التصحيح، وآليات الانتباه الذاتي، واستراتيجيات التجميع، وتوسيع الرموز المكانية إلى البعد الزمني. تعديل NaViT لـ ViT. يمكننا أن نرى أنهم يقومون بالتعديل للصورة بنسبة عرض إلى ارتفاع مختلفة من خلال الانتباه الذاتي. ثم قاموا بالتجميع بناءً على الصور المقابلة.

يجب أن يحدث التعديل للدقة المتغيرة في بنية المحول. لذا فمن المرجح أن يتم تعديله في نموذج Diffusion Transformer (DiT) للسماح له بالتبني للتصحيحات بنسب عرض إلى ارتفاع مختلفة. ميزة هذا النهج هي أنه يتغلب على lالمحاكاة للقص المكاني والزماني. ويمكنه التعامل مع دقة مختلفة وفترات زمنية، كما هو موضح في ورقة NaViT. كما استخدمت التجارب الأولية التي أجرتها NaViT أنابيب مكانية وزمانية، تتضمن تضمين الموضع مع البعد الزمني، واستخدمت "تضمين الإطار المركزي" كما هو موضح في ورقة ViViT. فيما يلي مقتطف من NaViT:

البنية الإجمالية المتوقعة

يمكن للمشفر وفك التشفير المرئي استخدام VAE الخاص بـ Stable Diffusion مباشرةً. ثم اتباع طريقة رقعة الأنبوب لتقسيم مقاطع الفيديو إلى رموز. ثم يتم إدخال الرموز في محول الانتشار المعدل استنادًا إلى NaViT للسماح بدقة متغيرة وطول زمني. بعد عملية إزالة الضوضاء، أعدها إلى تمثيل الفيديو الكامن ثم فك تشفيرها.

بينما تطرقنا إلى بعض الجوانب الأساسية لبنية Sora، فإن العديد من التفاصيل الفنية تنتظر المزيد من التوضيح. تظل الأسئلة قائمة حول التعديلات الدقيقة التي طرأت على إطار عمل DiT، والآليات التي يتم من خلالها الحفاظ على الاتساق الزمني داخل رقع Tubelet، وتعقيدات بيانات التدريب وإعدادها - وهي المهمة التي غالبًا ما تكون مفتاح النجاح. بالإضافة إلى ذلك، فإن استراتيجيات زيادة البيانات، والتعامل مع محتوى الفيديو المتنوع مع النص، وقدرة النموذج على التكيف مع سياقات الفيديو المختلفة هي مجالات ناضجة للاستكشاف. آمل أن تسلط هذه النظرة العامة الضوء ليس فقط على الإمكانات الرائدة لـ Sora، بل وأيضًا تشعل شرارة لمزيد من المناقشات والتحقيقات المتعمقة داخل المجتمع.

ظهرت النماذج التوليدية الأولى التي يمكنها إنتاج مقاطع فيديو من مقتطفات من النص في أواخر عام 2022. لكن الأمثلة المبكرة من Meta وGoogle وشركة ناشئة تسمى Runway كانت متقطعة وحبيبية. ومنذ ذلك الحين، تحسنت التكنولوجيا بسرعة. يمكن لنموذج Runway من الجيل الثاني، الذي تم إصداره العام الماضي، إنتاج مقاطع قصيرة تقترب من مطابقة الرسوم المتحركة في الاستوديو الكبير في جودتها. لكن معظم هذه الأمثلة لا تزال مدتها بضع ثوانٍ فقط.

مقاطع الفيديو النموذجية من Sora من OpenAI عالية الدقة ومليئة بالتفاصيل. تقول OpenAI أيضًا إنها يمكنها إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة. يُظهر مقطع فيديو لمشهد شارع في طوكيو أن Sora تعلم كيف تتلاءم الأشياء معًا في صورة ثلاثية الأبعاد: تنقض الكاميرا على المشهد لتتبع زوجين أثناء سيرهما بجوار صف من المتاجر. تزعم OpenAI أيضًا أن Sora يتعامل مع الانسداد بشكل جيد. إحدى المشكلات التي تواجه النماذج الحالية هي أنها قد تفشل في تتبع الأشياء عندما تختفي عن الأنظار. على سبيل المثال، إذا مرت شاحنة أمام لافتة شارع، فقد لا تظهر اللافتة مرة أخرى بعد ذلك.

لبناء Sora، قام الفريق بتكييف التكنولوجيا وراء DALL-E 3، أحدث إصدار من نموذج تحويل النص إلى صورة الرائد من OpenAI. مثل معظم نماذج تحويل النص إلى صورة، يستخدم DALL-E 3 ما يُعرف بنموذج الانتشار. يتم تدريب هذه النماذج على تحويل مجموعة من وحدات البكسل العشوائية إلى صورة. يتبع Sora هذا النهج ويطبقه على مقاطع الفيديو بدلاً من الصور الثابتة. لكن الباحثين أضافوا أيضًا تقنية أخرى إلى المزيج. على عكس DALL-E أو معظم نماذج الفيديو التوليدية الأخرى، يجمع Sora بين نموذج الانتشار ونوع من الشبكات العصبية يسمى المحول.

المحولات رائعة في معالجة تسلسلات طويلة من البيانات، مثل الكلمات. هذا جعلها الصلصة الخاصة داخل نماذج اللغة الكبيرة مثل GPT-4 من OpenAI وGemini من Google DeepMind. لكن مقاطع الفيديو ليست مصنوعة من الكلمات. بدلاً من ذلك، كان على الباحثين إيجاد طريقة لقطع مقاطع الفيديو إلى أجزاء يمكن التعامل معها كما لو كانت كذلك. كان النهج الذي توصلوا إليه هو تقطيع مقاطع الفيديو عبر المكان والزمان. يقول بروكس: "يبدو الأمر وكأنك تمتلك كومة من جميع إطارات الفيديو وتقطع منها مكعبات صغيرة".

يمكن للمحول داخل Sora بعد ذلك معالجة هذه القطع من بيانات الفيديو بنفس الطريقة التي يعالج بها المحول داخل نموذج لغوي كبير الكلمات في كتلة نصية. يقول الباحثون إن هذا سمح لهم بتدريب Sora على أنواع أخرى من مقاطع الفيديو مقارنة بنماذج النص إلى الفيديو الأخرى، والتي تختلف من حيث الدقة والمدة ونسبة العرض إلى الارتفاع والتوجيه. يقول بروكس: "هذا يساعد النموذج حقًا. هذا شيء لا نعرف أي عمل قائم عليه".

يقول سام جريجوري، المدير التنفيذي في ويتنس، وهي منظمة حقوق إنسان متخصصة في استخدام وإساءة استخدام تكنولوجيا الفيديو: "من منظور فني، يبدو الأمر وكأنه قفزة كبيرة إلى الأمام. لكن هناك وجهان للعملة". "إن القدرات التعبيرية توفر الإمكانات للعديد من الأشخاص ليكونوا رواة قصص باستخدام الفيديو. وهناك أيضًا طرق محتملة حقيقية لسوء الاستخدام".

تدرك OpenAI جيدًا المخاطر التي تأتي مع نموذج الفيديو التوليدي. نحن نشهد بالفعل سوء استخدام واسع النطاق لصور التزييف العميق. يأخذ الفيديو الواقعي هذا إلى مستوى آخر.

يلاحظ جريجوري أنه يمكنك استخدام تقنية مثل هذه لتضليل الناس بشأن مناطق الصراع أو الاحتجاجات. يقول إن مجموعة الأساليب مثيرة للاهتمام أيضًا. إذا كان بإمكانك إنشاء لقطات مهتزة تبدو وكأنها شيء تم تصويره بهاتف، فستبدو أكثر أصالة. لم تصل التكنولوجيا إلى هناك بعد، لكن الفيديو التوليدي انتقل من الصفر إلى Sora في غضون 18 شهرًا فقط.

يقول جريجوري: "سندخل عالماً حيث سيكون هناك محتوى اصطناعي بالكامل ومحتوى من صنع الإنسان ومزيج من الاثنين".

وتخطط شركة OpenAI للاستفادة من اختبارات السلامة التي أجرتها العام الماضي على DALL-E 3. ويتضمن Sora بالفعل مرشحًا يعمل على جميع المطالبات المرسلة إلى النموذج والذي سيمنع طلبات الصور العنيفة أو الجنسية أو البغيضة، بالإضافة إلى صور الأشخاص المعروفين. وسينظر مرشح آخر في إطارات مقاطع الفيديو المولدة ويمنع المواد التي تنتهك سياسات السلامة الخاصة بشركة OpenAI.

وتقول شركة OpenAI إنها تعمل أيضًا على تكييف كاشف الصور المزيفة الذي تم تطويره لـ DALL-E 3 لاستخدامه مع Sora. وستقوم الشركة بتضمين علامات C2PA القياسية في الصناعة، والبيانات الوصفية التي تنص على كيفية إنشاء الصورة، في جميع مخرجات Sora. لكن هذه الخطوات بعيدة كل البعد عن كونها مضمونة. فأجهزة الكشف عن الصور المزيفة غير مضمونة النتائج. ومن السهل إزالة البيانات الوصفية، وتقوم معظم مواقع التواصل الاجتماعي بحذفها من الصور التي تم تحميلها افتراضيًا.

يقول راميش: "سنحتاج بالتأكيد إلى الحصول على المزيد من الملاحظات ومعرفة المزيد عن أنواع المخاطر التي يجب معالجتها بالفيديو قبل أن يكون من المنطقي بالنسبة لنا إصدار هذا".

ويتفق بروكس مع هذا الرأي. "يقول: "جزء من السبب الذي يجعلنا نتحدث عن هذا البحث الآن هو أن نتمكن من البدء في الحصول على المدخلات التي نحتاجها للقيام بالعمل اللازم لمعرفة كيفية نشره بأمان".

ميزات OpenAI Sora

أثناء مراجعة Open AI Sora، يمكننا أن نرى أن Sora يمكنه إنشاء مشاهد معقدة مع شخصيات متعددة وأنواع محددة من الحركة وتفاصيل دقيقة للموضوع والخلفية. لا يفهم النموذج ما طلبه المستخدم في المطالبة فحسب، بل يفهم أيضًا كيف توجد هذه الأشياء في العالم المادي. على عكس العديد من مولدات النص إلى الفيديو AI الأخرى، تقدم Sora تقدمًا في مجموعة واسعة من الميزات. تتضمن بعض ميزات Sora الرئيسية ما يلي:

1. قدرات معالجة اللغة الطبيعية:

تتمتع Sora AI بتكنولوجيا متقدمة لفهم وتفسير النص المدخل، بما في ذلك دلالاته وسياقه ومشاعره. يتيح هذا التحسين لـ Sora AI إنشاء تمثيلات بصرية أكثر دقة.

2. وقت فيديو أطول:

يمكن لمولد النص إلى الفيديو Sora AI إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية بناءً على مطالبات مكتوبة باستخدام الذكاء الاصطناعي التوليدي. يمكن للنموذج أيضًا إنشاء فيديو من صورة ثابتة موجودة.

3. خيارات التخصيص:

يمنح Sora AI المستخدمين القدرة على تخصيص جوانب مختلفة من مقاطع الفيديو المولدة، بما في ذلك الأنماط المرئية وتأثيرات الرسوم المتحركة وأنظمة الألوان والطباعة. وهذا يسمح للمستخدمين بتخصيص الناتج ليناسب احتياجاتهم وتفضيلاتهم المحددة.

4. أدوات التعاون:

يحتوي Sora AI على أدوات تسهل التعاون بين أعضاء الفريق، مثل التحرير في الوقت الفعلي والتحكم في الإصدارات ووظائف التعليق. وهذا مفيد بشكل خاص للمشاريع التي تنطوي على أصحاب مصلحة متعددين أو فرق موزعة.

5. النص إلى الفيديو

نظرًا لأن نموذج Sora من OpenAI مدعوم بنموذج اللغة الكبير GPT، فيمكنه تحليل أي مطالبة نصية وإنشاء إخراج فيديو من خلال فهم نية المستخدم. بعبارة أخرى، الميزة الأولى لنموذج Sora هي قدرته على إنشاء إخراج نص إلى فيديو. ما عليك سوى كتابة مطالبتك في Sora واتركها تنشئ مقاطع فيديو جديدة وفريدة لمدة تصل إلى دقيقة واحدة.

6. الصورة إلى الفيديو

الميزة الثانية لنموذج Sora من OpenAI هي أنه يمكنه إنشاء إخراج فيديو بناءً على صورة موجودة. يمكن للنموذج تحليل الصورة الموجودة وإنشاء مقطع فيديو منها. في هذه العملية، يحلل نموذج Sora حركة الصورة المعطاة ويجعلها متحركة. عند استخدام ميزة الصورة إلى الفيديو، ينتبه نموذج Sora إلى التفاصيل الصغيرة للصور المعطاة ويضمنها في جميع أنحاء الإخراج. على الرغم من أن نموذج Sora لا يمكنه بعد إضافة تفاصيل صغيرة مثل علامات الأسنان، إلا أنه فعال لتصميمات الفيديو المفاهيمية.

7. الفيديو إلى الفيديو

تتمثل ميزة أخرى مفيدة لنموذج Sora من OpenAI في قدراته على إنشاء إخراج الفيديو إلى الفيديو. يمكنك توسيع مقاطع الفيديو الموجودة لديك بهذه الميزة. على سبيل المثال، إذا كنت تقوم بتحرير مقطع فيديو وتحتاج إلى إكماله بسرعة، فيمكنك استخدام ميزة الفيديو إلى الفيديو من Sora لإنهاء مهمتك بسرعة. بالإضافة إلى ذلك، يمكنك الاستفادة من هذه الميزة في Sora لتحسين الدقة ومعدل الإطارات في الثانية لمقاطع الفيديو الخاصة بك ذات الإطارات المفقودة.

8. حالات الاستخدام المحتملة لـ Sora

يعد Sora من OpenAI نموذجًا للذكاء الاصطناعي سيعود بفائدة كبيرة على المستخدمين في مهام إنشاء الفيديو وتحريره. يعد نموذج Sora أداة ذكاء اصطناعي ستساعدك في إكمال المهام المهنية وغير المهنية المتعلقة بالفيديو. دعنا نلقي نظرة فاحصة على حالات الاستخدام المحتملة لـ Sora من OpenAI.

9. التحرير

في هذا العصر، عندما أصبحت منصات الوسائط الاجتماعية ومقاطع الفيديو التي تقل مدتها عن دقيقة شائعة، نواجه غالبًا مهام تحرير الفيديو في الحياة المهنية واليومية. لإكمال مهام تحرير الفيديو، تحتاج إلى إتقان برامج التحرير وقضاء ساعات. في بعض الأحيان، حتى بالنسبة لمقطع فيديو قصير مدته دقيقة واحدة، قد تحتاج إلى العمل لمدة أسبوع وإضافة المؤثرات الصوتية والإطارات المناسبة في الثانية المناسبة. لحسن الحظ، سيكون نموذج Sora من OpenAI حلاً فعالاً لأتمتة مهام التحرير الأساسية والمتوسطة وتخفيف عبء العمل.

10. إنشاء الفيديو

إذا كان لديك تصميمات فيديو مفاهيمية وتتساءل كيف ستبدو هذه التصميمات في شكلها النهائي، فيمكنك إنشاء مسودة فيديو باستخدام نموذج Sora من OpenAI. يمكنك استخدام هذا الفيديو كإصدار خام من فيديو تصميم المفهوم الخاص بك والحصول على مادة أساسية للمنتج النهائي.

11. تم إنشاء وصف تلقائيًا لطوق كرة السلة مع كرة في الهواء

لإنشاء الفيديو المستهدف باستخدام نموذج Sora من OpenAI، تحتاج إلى كتابة مطالبة عالية الجودة ومفصلة. إذا كنت جديدًا في هندسة المطالبات وترغب في كتابة مطالبات لنموذج Sora، فإن شخصية مهندس المطالبات في ZenoChat مصممة لك. باستخدام هذه الشخصية، يمكنك إنشاء مطالبات لمجموعة واسعة من نماذج الذكاء الاصطناعي، بما في ذلك Sora، أو تحسين المطالبات الموجودة لديك.

12. تمديد الفيديو

يعد نموذج Sora من OpenAI حلاً فعالاً لتحليل مقاطع الفيديو الموجودة وتمديدها. هناك طريقتان أساسيتان لتمديد أي فيديو. الطريقة الأولى هي إضافة ثوانٍ إضافية عن طريق إبطاء الفيديو، والطريقة الأخرى هي تكرار أجزاء معينة من الفيديو. ومع ذلك، باستخدام نموذج Sora من OpenAI، يمكنك إنشاء محتوى جديد وفريد من نوعه لفيديوك وإكمال مهام التمديد الخاصة بك بشكل أكثر جمالية عن طريق إضافتها إلى الفيديو الخاص بك.

إيجابيات Sora by OpenAI:

1. التكنولوجيا المتقدمة:

Sora هي قفزة تكنولوجية إلى الأمام من تقنيات الفيديو بالذكاء الاصطناعي في الماضي، حيث توفر مقاطع فيديو أكثر إقناعًا وجودة سينمائية، مما يدل على استمرار قيادة OpenAI في مجال ابتكار الذكاء الاصطناعي.

2. الوصول والاختبار:

في البداية، تشارك OpenAI عددًا محدودًا من المختبرين الأوائل (الأكاديميين والباحثين الخارجيين) لاختبار وتخفيف إساءة الاستخدام المحتملة للتكنولوجيا أولاً. يتيح هذا آراء الخبراء لتحسين جودة مولد النص إلى الفيديو Sora AI قبل إصداره للجمهور.

3. السلامة:

نفذت OpenAI العديد من تدابير السلامة وتعمل مع خبراء في مجالات المعلومات المضللة وخطاب الكراهية والتحيز لإجراء اختبارات مكثفة لـ Sora. يتضمن هذا إضافة علامات مائية إلى جميع مقاطع الفيديو التي تم إنشاؤها بواسطة الذكاء الاصطناعي.

4. تجارب مخصصة:

تخيل مقاطع فيديو تعليمية مخصصة لكل طالب أو حملات تسويقية مصممة خصيصًا لكل جمهور. يزيد هذا النوع من التخصيص من المشاركة والتأثير بشكل كبير.

سلبيات Sora by OpenAI:

يوفر مولد النص إلى الفيديو Sora مزايا مختلفة. ومع ذلك، هناك جوانب سلبية لهذه التكنولوجيا الجديدة المبتكرة. تتضمن بعض العيوب ما يلي:

1. المخاوف الأخلاقية:

Sora هي أداة ذكاء اصطناعي قوية لديها القدرة على إحداث ثورة في إنشاء المحتوى وخلق فرص عمل جديدة، لكنها تثير أيضًا العديد من المخاوف الأخلاقية التي يجب معالجتها. كما هو الحال مع أي تقنية جديدة، هناك خطر إساءة الاستخدام، مما قد يؤدي إلى قضايا أخلاقية خطيرة.

2. إزاحة الوظائف:

Sora لديها القدرة على تحويل إنشاء المحتوى، لكنها لديها أيضًا القدرة على تعطيل الأدوار وسير العمل في مختلف الصناعات. قد تكون مجالات مثل إنتاج الفيديو والتصميم الجرافيكي، فضلاً عن إنشاء المحتوى، معرضة لخطر النزوح مع تولي الذكاء الاصطناعي المهام التي يقوم بها البشر تقليديًا.

3. الإفراط في الاعتماد على التكنولوجيا:

قد يؤدي الاعتماد المفرط على الذكاء الاصطناعي إلى خنق الإبداع البشري ومهارات التفكير النقدي. يعد إيجاد التوازن بين المدخلات البشرية ومساعدة الذكاء الاصطناعي أمرًا بالغ الأهمية.

بدائل Sora

Hour One

يتيح مولد الذكاء الاصطناعي هذا للمستخدمين إنشاء مقاطع فيديو واقعية من النص، مما يجعله مناسبًا للتسويق والمبيعات والمحتوى التعليمي.

DeepBrain

يركز DeepBrain على إنشاء مقاطع فيديو مدعومة بالذكاء الاصطناعي، ويمكن استخدامه لإنشاء محتوى مرئي جذاب لمختلف الصناعات والأغراض.

InVideo

مع مجموعة واسعة من القوالب وخيارات التخصيص، يتيح InVideo للمستخدمين إنشاء مقاطع فيديو ذات مظهر احترافي للتسويق ووسائل التواصل الاجتماعي والمزيد.

الاسئلة الشائعة عن Sora by OpenAI:

1. هل يمكن لبرنامج OpenAI Sora إنتاج الفيديو والصوت في نفس الوقت؟

يركز Sora بشكل أساسي على إنشاء محتوى الفيديو، ولكنه يمكنه أيضًا إنشاء أصوات وموسيقى أساسية تتوافق مع مقاطع الفيديو. ومع ذلك، فإن جودة الصوت الناتج وتعقيده ليسا بنفس جودة إنشاء الفيديو.

2. كيف سيغير OpenAI Sora سير عمل تحرير الفيديو التقليدي؟

يمكن لبرنامج Open AI Sora تغيير سير عمل تحرير الفيديو التقليدي من خلال توفير مقاطع فيديو أكثر إقناعًا وجودة سينمائية، مع التطورات التكنولوجية والتحسينات على مولدات النص إلى الفيديو التي كانت موجودة سابقًا.

3. هل يمكنك عمل فيلم كامل باستخدام Sora؟

إن مهارات Sora مثيرة للإعجاب حقًا، لكن Sora لا يمكنه عمل فيلم روائي طويل الآن. بالتأكيد، يمكنه عمل مقاطع فيديو قصيرة من مطالبات نصية، لكن الفيلم الكامل يحتاج إلى حبكة وشخصيات والكثير من المشاهد والمواقع.

4. كيف يعمل Sora من OpenAI؟

نموذج Sora من OpenAI هو في الأساس نموذج انتشار، حيث يقوم أولاً بتوليد الإطارات ثم دمجها لإنشاء مقطع فيديو. نظرًا لأن نموذج Sora تم تطويره بناءً على نموذجي GPT وDALL-E، فإنه يمكنه توليد مخرجات أكثر دقة. بينما تعمل نماذج GPT على تحسين فهم اللغة لنموذج Sora، تعمل نماذج DALL-E على ترقية مهارات توليد الصور الخاصة بها. بهذه الطريقة، يمكن لنموذج Sora تحليل مطالبات المستخدمين وإنشاء فيديو يصل إلى دقيقة واحدة بدقة وأسلوب الهدف.

5. كيف يمكن الوصول إلى Sora من OpenAI؟

وفقًا لمقال OpenAI، فإن نموذج Sora متاح حاليًا فقط للأعضاء الذين يطلق عليهم أعضاء الفريق الأحمر. والسبب الرئيسي وراء ذلك هو منع المحتوى الذي يمكن إنتاجه باستخدام Sora من أن يكون ضارًا أو غير أخلاقي. لا يوجد لدى OpenAI حتى الآن جدول زمني لجعل نموذج Sora متاحًا للجمهور. لكي يصبح نموذج Sora متاحًا للجمهور، يجب أن يتوافق أولاً مع القواعد الأخلاقية والسياسية وأن يكون قانونياً.

6. هل يتوفر OpenAI Sora للاستخدام العام حالياً؟

تمنح OpenAI أيضًا الوصول إلى الفنانين التشكيليين والمصممين وصناع الأفلام للحصول على ملاحظات حول كيفية تحسين النموذج. والهدف هو ضمان قيام OpenAI بتطوير ونشر Sora بشكل مسؤول، مع مراعاة التأثير المحتمل لمثل هذه الأداة القوية للذكاء الاصطناعي.

7. كيف سيؤثر موجه Sora على الفيديو النهائي وكيفية استخدام OpenAI Sora بشكل فعال؟

لا يمكن الوصول إلى Sora حاليًا للعامة. ومع ذلك، بمجرد إتاحته للعامة، من المحتمل أن يُطلب من المستخدمين تقديم مطالبات نصية لتوجيه الذكاء الاصطناعي في إنشاء مقاطع الفيديو. على سبيل المثال، قد يُطلب من المستخدمين وصف المشاهد أو الشخصيات أو الإجراءات. بناءً على فهم الذكاء الاصطناعي للنص، فإنه سيولد مقطع فيديو مطابقًا. سيعتمد مستوى إدخال المستخدم على التطبيق ومستوى خبرة المستخدم.

ختاماً أصبح من الواضح أن https://openai.com/index/sora يمثل تقدماً كبيراً في إنشاء المحتوى المدفوع بالذكاء الاصطناعي، مما يمنح المستخدمين القدرة على تحويل النص إلى سرد مقنع بصريًا بسهولة نسبية. في حين أن الذكاء الاصطناعي قام أولاً بإنشاء نص جديد وفريد، فقد بدأ أيضًا في إنتاج الصوت والصور. أخيرًا، جمع الذكاء الاصطناعي كل هذا التنوع بين الأجيال وفتح القدرة على إنتاج مقاطع فيديو من المطالبات النصية. يفهم نموذج Sora من OpenAI نية المستخدم من خلال قراءة وتحليل المطالبات النصية ويمكنه إنشاء مقاطع فيديو تصل مدتها إلى دقيقة واحدة.

بعبارة أخرى يمكن الآن استخدام الذكاء الاصطناعي لإكمال المهام القائمة على الفيديو بالإضافة إلى المهام النصية والمرئية والصوتية. نموذج Sora من OpenAI هو أداة ذكاء اصطناعي تحلل مطالبات المستخدمين وتحولها إلى مقاطع فيديو واقعية تتوافق مع قواعد الفيزياء. نظرًا لأن نموذج Sora تم تطويره باستخدام بنية GPT وDALL-E، فإنه يمكنه فهم المطالبات النصية وإنشاء صور حديثة. يتميز نموذج Sora بثلاثة خيارات مختلفة: النص إلى الفيديو، والصورة إلى الفيديو، والفيديو إلى الفيديو. يمكنك استخدام نموذج Sora من OpenAI لمهام التحرير وإنشاء الفيديو وتوسيع الفيديو. إذا كنت تريد كتابة مطالبات عالية الجودة لاستخدام نموذج Sora من OpenAI، فإن شخصية مهندس المطالبات في ZenoChat مصممة لك.