باستخدام تقنية Dall-E، ساهمت OpenAI في تمهيد الطريق للذكاء الاصطناعي التوليدي القادر على تحويل رسائل نصية إلى صور. هناك الآن العديد من المنافسين، ومع ذلك، الإصدار 3 من هذه الخدمة ما زال قوياً.
في اختباراتي التي قارنتها ببرنامج Adobe Firefly و Google ImageFX، لاحظت أن Dall-E 3 كان يقوم عادة بأفضل أداء مع الصور الواقعية والجذابة، وكان يتفوق دائما في التعامل مع الخيال السريالي. إنه برنامج بسيط، ولكن من المحتمل أن يعطيك نتائج جيدة وقابلة للاستخدام في المحاولة الأولى، خاصة إذا كنت تبحث عن تجربة ممتعة للذكاء الاصطناعي بدلاً من الفشل.
كان Dall-E أيضًا الأفضل في إثارة فضولك واستكشاف الأمور الممكنة. أنا متأكد من أن هناك مصممين وفنانين ومبرمجين وأشخاص آخرين قادرون على تحقيق رؤيتهم، ولكني لست ماهرًا في ذلك. بالنسبة لي، Dall-E هو شيء رائع.
يشجع Dall-E على نوع فريد من هندسة المطالبات الفائقة، حيث يقدم الأفراد فقرات من النص، تتراوح بين المقالة القصيرة والقصة القصيرة - وهو نوع المطالبات التي يرفضها بعض المنافسين بسبب طولها الزائد. يستكشف هذا البرنامج الرؤية الجماعية لسكان كانساس الذين يحلمون بعصر الوفرة بعد غزو الطبيعة والسكان الأصليين الأمريكيين، تم إنشاء هذه الصورة باستخدام مطالبة تتكون من 186 كلمة. إنها تمثل شكلاً رائعاً للإبداع المتقدم بواسطة الحاسوب، وDall-E هي أفضل أداة قمت بتجربتها لهذه المهمة.
تقوم شركة OpenAI بالإشارة إلى إمكانية استخدام المحتوى المقدم إلى Dall-E 3 لتحسين أداء النموذج، وتؤكد أنها تتعاون مع مجموعة محددة من "مقدمي الخدمة الموثوق بهم" لمشاركة هذا المحتوى. وتؤكد أيضًا أنها لا تقوم ببيع البيانات أو مشاركة المحتوى مع أطراف ثالثة لأغراض التسويق. بالإضافة إلى ذلك، يمكنك تقديم طلب خصوصية لإيقاف تدريب OpenAI على بياناتك أو حذف حسابك. يُرجى الاطلاع على الأسئلة الشائعة حول سياسة الخصوصية العامة والخصوصية الرئيسية لشركة OpenAI للحصول على مزيد من التفاصيل.
وها هي نظرة شاملة على ما اكتشفته مع Dall-E 3.
كيف يقوم فريق CNET بإختبار مولدات الصور ذات الذكاء الاصطناعي؟
تعتمد CNET على منهج عملي لاستعراض مولدات الصور التي تستخدم الذكاء الاصطناعي. هدفنا هو تحديد جودتها بالمقارنة مع المنافسة وتحديد الأغراض التي تخدمها بشكل أفضل. لتحقيق ذلك، نقدم مطالبات الذكاء الاصطناعي استنادًا إلى حالات الاستخدام في العالم الحقيقي، مثل تقديم العرض بأسلوب محدد، ودمج العناصر في صورة واحدة، والتعامل مع الأوصاف الطويلة. نقوم بتقييم مولدات الصور على مقياس يتألف من 10 نقاط، حيث نأخذ في الاعتبار عوامل مثل مدى توافق الصور مع المطالبات، وإبداع النتائج، وسرعة الاستجابة. تفضل بالاطلاع على كيفية اختبارنا للذكاء الاصطناعي لمزيد من المعلومات.
ما هي جودة الصور ومدى توافقها مع المطالب المطلوبة؟
يقدم ChatGPT أدوات ذكاء اصطناعي متميزة لـ "تحويل النص إلى صورة". لقد جربت هذه الأدوات ووجدتها قادرة على إنتاج نتائج مُفيدة ومُسلية ومُقنعة.
على الرغم من وجود بعض الأخطاء في الصور المُولدة، مثل لاعب كرة التنس يُخرج مجدافه من رأسه بدلًا من قبضة المجداف، إلا أن النتائج بشكل عام كانت مشجعة ودفعتني لاستكشاف المزيد من قدرات الأداة دون إغلاق علامة تبويب المتصفح.
تُظهر الأداة أداءً أفضل عند تحويل النصوص التي تصف مشاهد ديناميكية، كما تُظهر تفاعلًا جيدًا مع تنوع المواضيع والحالات المزاجية.
ChatGPT: مكون أساسي لـ Dall-E
يُعد ChatGPT عنصرًا أساسيًا في نظام Dall-E، حيث يقوم بـ:
- توسيع نطاق طلباتك: يزيد من تفاصيل طلبك ليصبح أكثر وضوحًا ودقة.
- إضافة لمسة فنية: يُضفي على النتائج أسلوبًا أدبيًا جذابًا يضفي عليها طابعًا دراميًا.
- تسهيل التعديلات: يُتيح لك طلب تعديلات على الصورة دون الحاجة إلى إعادة كتابة طلبك بالكامل.
قدرات لغة متقدمة
يعتمد ChatGPT على تقنية لغة متقدمة تُمكّنه من:
- معالجة الطلبات الطويلة والمفصلة: يفهم تعليماتك المعقدة ويترجمها إلى تعليمات واضحة لنظام Dall-E.
- الربط بين مهارات التعامل مع النصوص والصور: يُوظف قدراته اللغوية المتقدمة لفهم نيتك وترجمتها إلى صورة تُجسد أفكارك بدقة.
Dall-E 3 يتفوق على المنافسين
بفضل قدرات ChatGPT، يتفوق Dall-E 3 على المنافسين مثل Adobe's Firefly و ImageFX من Google في:
- فهم طلباتك بدقة: يُترجم رغباتك إلى صورة تُجسد أفكارك بدقة أكبر.
- دمج عناصر متعددة بانسجام: يُمكنه دمج عناصر متعددة في صورة واحدة بشكل صحيح، مثل "تنين يطير فوق قلعة ينفث النار ويحمل خروفًا أبيض رقيقًا في مخالبه".
- الالتزام بالقيود الأخلاقية: يُراعي قيود OpenAI ضد العنف، ويضمن أن التفاعلات بين العناصر في الصورة تُجسد مشاعر إيجابية.
Dall-E 3 هو أداة تحويل النص إلى صورة مذهلة من OpenAI تتيح لك إنشاء صور من خيالك. بينما تُذهلنا بإمكانياتها الخيالية، إلا أنها لا تزال قيد التطوير وتُظهر بعض أوجه القصور.
أوجه القصور
- أخطاء تفصيلية:
- حيوانات ذات مشاكل في التشريح (رأسين، قطة بدلًا من كلب، تشوهات في الأطراف).
- عدم دقة في المشاهد الواقعية (12 قبطانًا على متن سفينة بدون طاقم).
- أخطاء في الألوان (كرة بلياردو نصفها أخضر نصفها أبيض).
- صعوبة إنشاء صور واقعية:
- تميل إلى إنشاء مشاهد حالمة ذات أسلوب رسم توضيحي بدلًا من واقعيه.
- واجهت صعوبة في إنشاء صور واقعية مثل قبطان بحري على سفينة شراعية.
- إبداع هائل:
- إنشاء صور من أي نص مهما كان غريبًا.
- نتائج ممتعة حتى مع وجود أخطاء.
- إمكانيات هائلة لتحفيز الإبداع.
- سهولة الاستخدام:
- واجهة بسيطة تسمح بإنشاء الصور بسهولة.
- لا تتطلب مهارات فنية.
- توفير مولدات شعارات مخصصة لاشتراكات ChatGPT Plus.
ما مقدار جاذبية الصور؟
جذابة للغاية. بشكل متكرر، قام Dall-E بإنتاج ثلاث صور مبهجة ومثيرة للانتباه. حتى عندما كانت هناك بعض المشاكل، كنت أستمتع بها كثيرًا. لقد جعلتني أضحك في بعض الأحيان وأنظر إلى التفاصيل.
قد يكون أسلوب اللغة في Dall-E 3 غير مرغوب فيه في بعض الأحيان. عندما يتم طلب صورة لطبيب ومريض محاطين بالمعدات الطبية، يتم تتبع بيانات ضربات القلب والتنفس بواسطة العديد من أجهزة المراقبة. يحتوي أحد أجهزة الكمبيوتر على حوالي 100 مفتاح على لوحة المفاتيح.
يمكن أن يبدو الأشخاص مجنونين إلى حد ما بالعاطفة أيضًا. طلبي هو أن يتم تصوير شخص محبط واقف خلف صندوق يحتوي على مستلزمات تنظيف، ولكن النتيجة كانت ظهور شخصين غاضبين بشكل أكبر من المحبطين وشخص آخر كان شريرًا تمامًا.
يمكنك أن تطلب من Dall-E 3 تخفيف حدة الأمور، وفي بعض الأحيان سيقوم بذلك.
هل يمكنك تعديل النتائج؟
واجهة Dall-E 3 النصية هي واجهة تفاعلية. بالمقارنة مع برنامج Adobe Firefly، لا تتوفر أزرار للأنماط الصورية أو المعلمات. يمكنك التعود على أسلوب المحادثة الخاص بها، ولكن المستخدمين الذين يستخدمون برنامج تحرير الصور لفترة طويلة يفضلون الأزرار وشرائح التمرير.
يمكنك طلب أن تكون الصورة عرضية أو طولية أو أفقية، وسيتم ذلك بواسطة الذكاء الاصطناعي. ولكن عندما تطلب صورة جديدة، قد تعود أحيانًا إلى شكلها المربع الافتراضي. لقد حدث لي عدة مرات أن حصلت على صورة مربعة أعجبتني، ولكن لا يمكنك ببساطة طلب توسيع تلك الصورة بالضبط. يمكنك استخدام ميزة التوسيع التوليدية في برنامج فوتوشوب إذا كنت ترغب في اتباع هذا الطريق.
كم هي سرعة وصول الصور؟
على الرغم من أن Dall-E 3 أداة مذهلة، إلا أنها تأخذ وقتها في إنتاج الصور. غالبًا ما تستغرق الصورة الواحدة 20-30 ثانية، وهو ما قد يتجاوز صبر المستخدم أحيانًا.
بدلاً من الانتظار بفارغ الصبر، يمكنك ببساطة القيام بشيء آخر أثناء انتظار الصورة. على سبيل المثال، يمكنك التحقق من بريدك الإلكتروني أو تصفح الإنترنت. بعد بضع دقائق، يمكنك العودة إلى Dall-E 3 للتحقق من النتائج.
قد يتسبب تأخر Dall-E 3 في إبطاء تفاعل ChatGPT، لكنني أفضّل سرعة بطيئة مع نتائج أفضل على سرعة سريعة وصور رديئة.
الخلاصة
Dall-E 3 أداة قوية لتحويل النص إلى صورة تُظهر إمكانيات هائلة لخلق صور إبداعية. بينما لا تزال قيد التطوير وتُظهر بعض أوجه القصور، إلا أنها تُقدم تجربة ممتعة ومفيدة. مع تطور التكنولوجيا، من المحتمل أن تصبح Dall-E 3 أداة لا غنى عنها لمبدعي المحتوى والفنانين.