Dall-E مستقبل إنشاء الصور من النص بالذكاء الأصطناعي Ai مع 7 حدود للاستخدام

بفضل Dall-E ساعدت OpenAI في تمهيد الطريق للذكاء الاصطناعي التوليدي الذي يحول مطالبة نصية إلى صورة. والآن هناك الكثير من المنافسة. Dall-E غالباً ما يقوم بأفضل عمل مع الصور الواقعية والجذابة وكان دائماً ما يقوم بأفضل عمل مع الخيالات السريالية. يشجع Dall-E نوعاً من هندسة المطالبات المبالغ فيها، حيث يقدم الأشخاص فقرات من النص، شيء بين الصورة المصغرة والقصة القصيرة، وهو النوع من المطالبات التي يرفضها بعض المنافسين باعتبارها طويلة جداً.



يتوفر Dall-E 3 فقط من خلال خدمة ChatGPT Plus المتميزة مقابل 20$ شهرياً، والتي تتيح لك أيضاً الوصول إلى إصدار أكثر استجابة من روبوت الدردشة ChatGPT ومتجر GPT المفيد من OpenAI مع إصدارات مخصصة من أدوات الذكاء الاصطناعي الخاصة به.

ما مدى جاذبية الصور؟

جذابة للغاية. لقد أنتج برنامج Dall-E 3 صوراً نابضة بالحياة تجذب الانتباه مراراً وتكراراً. لكن النهج اللغوي المبالغ فيه لبرنامج Dall-E 3 قد يكون غير مرغوب فيه في بعض الأحيان. فعند المطالبة بصورة لطبيب ومريض محاطين بمعدات طبية، كانت هناك عشرات الشاشات التي تتتبع بيانات ضربات القلب والتنفس. يمكن أن يبدو الأشخاص أيضاً وكأنهم مصابون بالجنون بسبب الانفعال. فقد أدى طلبي برسم شخص محبط يقف خلف صندوق من مستلزمات التنظيف إلى ظهور شخصين بدوا غاضبين أكثر من كونهم محبطين وشخص آخر كان شيطانياً تماماً. يمكنك أن تطلب من برنامج Dall-E 3 أن يخفف من حدة الأمور، وفي بعض الأحيان سيفعل ذلك.

هل يمكنك ضبط النتائج؟

الواجهة النصية لبرنامج Dall-E 3 عبارة عن محادثة تكتبها للبرنامج لإنشاء الصور بالذكاء الاصطناعي. يمكنك طلب أن تكون الصور عريضة أو عمودية أو أفقية وسيستجيب الذكاء الاصطناعي. ولكن عندما تبدأ بمطالبة صورة جديدة، فإنه يعود أحياناً إلى الوضع الافتراضي المربع.

إيجابيات Dall-E من OpenAI

  • تصاميم مدهشة وقد تقترب من الحقيقة ومن الخيال في نفس الوقت.
  • سهل الاستخدام وكأنك تتحدث مع رسام متطور.
  • النتائج جيدة ومناسبة.

سلبيات Dall-E من OpenAI

  • الأخطاء غير المنطقية والصور التي تتجاهل التعليمات في GPT.
  • في بعض الأحيان يكون من الصعب تصوير الأفكار المعقدة بدقة.
  • قد تحصل على سلسلة من الأخطاء غير القابلة للتفسير.

ما هو Dall-E؟

DALL-E هو منتج ذكاء اصطناعي توليدي تم إنشاؤه بواسطة OpenAI. يمكنه إنشاء صور وفن واقعي من وصف قائم على النص يمكن أن يتضمن مفاهيم فنية وسمات وأنماط. توفر مجموعة أدوات تحرير الصور الكاملة لـ DALL-E للمستخدمين مجموعة متطورة من الخيارات: توسيع الصور المولدة إلى ما هو أبعد من الإطار الأصلي (الطلاء الخارجي)، وإجراء تعديلات أصيلة على الصور الموجودة التي تم تحميلها بواسطة المستخدم أو التي تم إنشاؤها بواسطة الذكاء الاصطناعي، ودمج المكونات أو إزالتها مع مراعاة الظلال والانعكاسات والملمس (الطلاء الداخلي). بمجرد أن يحقق المستخدمون الصورة المولدة التي يريدونها، يمكنهم تنزيلها واستخدامها.

كيف يعمل Dall-E؟

DALL-E هو شكل من أشكال الذكاء الاصطناعي التوليدي، وهو مجال ناشئ للذكاء الاصطناعي. يتم تعريف الذكاء الاصطناعي التوليدي بقدرة نظام الذكاء الاصطناعي على إنشاء ("توليد") محتوى معقد ومتماسك وأصلي. على سبيل المثال، يمكن لنموذج الذكاء الاصطناعي التوليدي إنشاء كتابات أو صور متطورة. يستخدم DALL-E نوعاً معيناً من الذكاء الاصطناعي التوليدي يسمى "نماذج الانتشار"، والذي سمي بهذا الاسم نسبة إلى عملية الانتشار لتوليد محتوى جديد. الانتشار ظاهرة طبيعية ربما تكون قد شهدتها من قبل. يحدث مثال جيد للانتشار إذا أسقطت بعض ألوان الطعام في كوب من الماء. بغض النظر عن مكان بدء تلوين الطعام هذا، فإنه سينتشر في النهاية في جميع أنحاء الكوب ويلون الماء بطريقة موحدة.

في حالة وحدات البكسل في الكمبيوتر، فإن الحركة العشوائية لتلك البكسلات ستؤدي دائمًا إلى "التشويش التلفزيوني". هذا هو المعادل للصورة لتلوين الطعام الذي يخلق لونًا موحدًا في كوب من الماء. يعمل نموذج الانتشار للتعلم الآلي، بشكل غريب بما فيه الكفاية، على تدمير بيانات التدريب الخاصة به عن طريق إضافة "تشويش تلفزيوني" على التوالي، ثم عكس ذلك لتوليد شيء جديد. إنها قادرة على توليد صور عالية الجودة بتفاصيل دقيقة وملمس واقعي. يجمع DALL-E بين نموذج الانتشار ونموذج تحويل النص إلى صورة. نموذج تحويل النص إلى صورة هو خوارزمية تعلم آلي تستخدم معالجة اللغة الطبيعية (NLP)، وهو مجال من مجالات الذكاء الاصطناعي يسمح لأجهزة الكمبيوتر بفهم ومعالجة اللغة البشرية. يأخذ DALL-E مدخلات اللغة الطبيعية وينتج صورة تحاول مطابقة الوصف.

الأفضل في Dall-E

يتمتع DALL-E بالقدرة على تمكين الإبداع والتعبير الفني، والسماح بتصور أفكار جديدة. لقد بذلت OpenAI عدداً من الجهود للحد من قدرة DALL-E على توليد محتوى ضار. وتشمل هذه الجهود تصفية بيانات ما قبل التدريب لتقليل كمية المحتوى الجنسي والعنيف الجرافيكي، بالإضافة إلى صور بعض رموز الكراهية؛ وتقييم مدخلات المستخدم (مطالبات تحويل النص إلى صورة، ومطالبات الرسم، والصور المحملة) ورفض إنشاء محتوى للمدخلات التي من شأنها أن تؤدي إلى انتهاك سياسة المحتوى الخاصة بالشركة؛ وفرض حدود للسعر؛ والتنفيذ من خلال المراقبة والمراجعة البشرية. وعلى النقيض من مراجعتنا لـ Stable Diffusion، كانت هذه الجهود فعالة بشكل ملحوظ.

إن أكبر المخاطر التي قد تواجهها برمجيات DALL-E هي أنها قد تشكل عقولاً قابلة للتأثر، وبقدر ضئيل من المساءلة. وتنص شركة OpenAI على أن "استخدام DALL-E 2 قد يلحق الضرر بالأفراد والمجموعات من خلال تعزيز الصور النمطية، أو محوها أو تشويه سمعتها، أو تزويدها بأداء منخفض الجودة بشكل غير متناسب، أو تعريضها للإهانة. وتعكس هذه السلوكيات التحيزات الموجودة في بيانات تدريب DALL-E 2 والطريقة التي يتم بها تدريب النموذج".

ويأتي أحد الأمثلة على ذلك من إدراك الشركة أن مرشح المحتوى الصريح المطبق على بيانات ما قبل التدريب الخاصة ببرمجيات DALL-E قد أدخل في الواقع تحيزاً جديداً صافياً. ففي الأساس، أدى المرشح الذي تم تصميمه لتقليل كمية بيانات ما قبل التدريب التي تحتوي على عُري ومحتوى جنسي وكراهية وعنف وإيذاء إلى تقليل تكرار الكلمة الرئيسية "امرأة" بنسبة 14%. وعلى النقيض من ذلك أدى مرشح المحتوى الصريح إلى تقليل تكرار الكلمة الرئيسية "رجل" بنسبة 6% فقط. وبعبارة أخرى أدت محاولات OpenAI لإزالة المواد الصريحة إلى إزالة ما يكفي من المحتوى الذي يمثل النساء بحيث أصبحت مجموعة البيانات الناتجة تمثل بشكل كبير المحتوى الذي يمثل الرجال. وهذا يوفر منظوراً حول عدد الصور على الإنترنت التي تحتوي على محتوى جنسي صريح للنساء.

كما تلاحظ OpenAI أن السلوك الافتراضي لـ DALL-E يولد صوراً تمثل بشكل مفرط درجات لون البشرة البيضاء و"المفاهيم الغربية بشكل عام". هذه الميول نحو الأذى قوية بشكل مخيف في الجمع. ماذا يحدث لأطفالنا عندما يتعرضون لنظرة عالمية لخوارزمية متحيزة بشكل متكرر وبمرور الوقت؟ ما هي النظرة للعالم التي سيفترضون أنها "صحيحة"، وكيف سيؤثر هذا على تفاعلاتهم مع الأشخاص الحقيقيين والمجتمع؟ من المسؤول عن السماح بحدوث هذا؟

إن التمثيلات الجنسية غير اللائقة للنساء والفتيات تضر بجميع المستخدمين. يواصل DALL-E إظهار ميل نحو التشييء والجنس. وهذا هو الحال بشكل خاص مع التمثيلات الجنسية غير اللائقة للنساء والفتيات، حتى مع المطالبات التي تسعى إلى صور المهنيات من النساء. وهذا يؤدي إلى إدامة الصور النمطية الضارة، والتحيز غير العادل، والمثل العليا غير الواقعية لجمال المرأة و"جاذبيتها"، والمعتقدات الخاطئة حول العلاقة الحميمة بين البشر من جميع الجنسين. وقد أظهرت العديد من الدراسات أن التعرض المتزايد للصور التي تعزز إضفاء الطابع الموضوعي على المرأة يؤثر سلباً على الصحة العقلية والجسدية للفتيات والنساء.

يعزز DALL-E بسهولة الصور النمطية الضارة. وحتى عندما يُطلب منه القيام بخلاف ذلك، يكون DALL-E عرضة لتوليد مخرجات تؤدي إلى إدامة الصور النمطية الضارة، وخاصة فيما يتعلق بالعرق والجنس. وتشمل بعض الأمثلة على ما وجدناه ما يلي:

يعكس DALL-E ويضخم الصور النمطية الجنسانية الإحصائية للمهن (على سبيل المثال، مضيفات الطيران الإناث فقط، ومدبرات المنازل، والآباء الذين يبقون في المنزل، مقابل مطوري البرامج الذكور). وقد حاولت OpenAI معالجة هذه التحديات المعروفة. في حين يبدو أن هذه التقنية نجحت في بعض المهن التي تم اختبارها جيداً، وخاصة في توليد المزيد من التنوع في درجات لون البشرة.

فقد وجدنا نتائج شديدة التمييز بين الجنسين لمهن مثل مديري المنتجات (جميعهم من الذكور) مقابل مسوقي المنتجات (جميعهم من الإناث)، ومديري المدارس (جميعهم من الذكور) مقابل المعلمين (جميعهم من الإناث)، والمصرفيين (جميعهم من الذكور) مقابل أمناء البنوك (جميعهم من الإناث)، والمديرين (جميعهم من الذكور) مقابل المتخصصين في الموارد البشرية (جميعهم من الإناث).

تقدم ميزات الرسم المتقدمة في DALL-E مخاطر جديدة. في حين أنها مبتكرة ومفيدة في العديد من السياقات، فإن الدرجة العالية من الحرية لتغيير الصور تعني أنه يمكن استخدامها لإدامة الأضرار والأكاذيب. وبحسب تعبير OpenAI، فإن الصور التي تم تغييرها، على سبيل المثال، لتعديل أو إضافة أو إزالة الملابس أو إضافة أشخاص إضافيين إلى صورة بطرق مساومة "يمكن استخدامها إما لمضايقة فرد أو تنمره بشكل مباشر، أو لابتزازه أو استغلاله".

ويمكن أيضاً استخدام هذه الميزات لإنشاء صور تضلل الآخرين عمداً. على سبيل المثال يمكن لحملات التضليل إزالة الأشياء أو الأشخاص من الصور أو إنشاء صور تتظاهر بأحداث كاذبة. ومن الجدير بالذكر أن المطالبات تخضع أيضاً لجهود OpenAI للحد من قدرة DALL-E على توليد محتوى ضار.

تمهد أدوات مثل DALL-E الطريق للتضليل والمعلومات المضللة. وكما هو الحال مع جميع أدوات الذكاء الاصطناعي التوليدي، يمكن لـ DALL-E بسهولة توليد أو تمكين محتوى كاذب وضار، سواء من خلال تعزيز التحيزات غير العادلة، أو من خلال توليد صور تضلل الآخرين أو تضللهم عمداً.

ولأن محاولات OpenAI للحد من هذه المحاولات هشة، ولأن الصور يمكن التلاعب بها بشكل أكبر باستخدام الذكاء الاصطناعي التوليدي فقد يتم إنشاء محتوى مرئي زائف وضار بسرعة مثيرة للقلق. وتشير OpenAI إلى أنه مع نضج عملية إنشاء الصور، فإنها "تترك آثاراً ومؤشرات أقل على أن المخرجات تم إنشاؤها بواسطة الذكاء الاصطناعي، مما يجعل الصور أكثر وضوحًا. "إن هذا يعني أنه من السهل الخلط بين الصور المولدة والصور الحقيقية والعكس صحيح". بعبارة أخرى، مع نمو أنظمة الذكاء الاصطناعي هذه، قد يصبح من الصعب بشكل متزايد فصل الحقيقة عن الخيال.

حدود استخدام Dall-E

  • لا تسمح شروط خدمة DALL-E باستخدامه للأطفال دون سن 13 عاماً.

  • يُطلب من المراهقين الذين تتراوح أعمارهم بين 13 و17 عاماً الحصول على إذن من الوالدين لاستخدام DALL-E.

  • لم نتلق إفصاحات مشاركة من OpenAI لـ DALL-E. يعتمد هذا التقييم على المعلومات المتاحة للجمهور واختبارنا الخاص وعملية المراجعة الخاصة بنا.

  • يواجه النموذج صعوبة في تمثيل المفاهيم خارج بيانات التدريب الخاصة به، مما يؤدي إلى أداء غير متسق للأفراد الذين يسعون إلى حث DALL-E على إنتاج أفكار وأشياء ومفاهيم غير مهيمنة على الغرب.

  • يواجه النموذج صعوبة في تمثيل المفاهيم خارج بيانات التدريب الخاصة به، مما يؤدي إلى أداء غير متسق للأفراد الذين يسعون إلى حث DALL-E على إنتاج أفكار وأشياء ومفاهيم غير مهيمنة على الغرب.

  • حالياً لا توجد أدوات موثوقة للكشف عن التزييف العميق، أو أدوات قادرة على تحديد ما إذا كانت الصور قد تم إنشاؤها بواسطة DALL-E. في حين أن كل صورة يولدها DALL-E حالياً تتضمن توقيعاً تعريفياً في الزاوية اليمنى السفلية، يمكن اقتصاصها بسهولة.

  • في وقت إجراء هذه المراجعة، لا يمكن لبرنامج DALL-E سوى دعم المطالبات باللغة الإنجليزية.

ما مدى سرعة وصول الصور في Dall-E؟

Dall-Eغالباً ما يستغرق 20 أو 30 ثانية لإنتاج صورة واحدة فقط.

ختاماً Dall-E 3 هي أداة رائعة يمكنها إضفاء بعض المرح الإبداعي على حياتك والقيام بعمل مفيد لإنشاء الصور. كما هو الحال مع جميع أدوات توليد النص إلى الصورة فهي عرضة للأخطاء لكن Dall-E 3 تقدم أفضل النتائج بين المنافسين، ولا تنسى تضع أفكارك أو مقترحاتك بالتعليقات ومشاركة المقال أو الاقتباس منه مع مَنً تحب وفيما تحب.
المقال التالي المقال السابق
لا تعليقات
إضافة تعليق
رابط التعليق

نحترم وقتك ونقدره .. نصف ساعة لنمو مشروعك

احجز اجتماع معنا