GPT Image2全网刷屏，但效果究竟为什么这么好؟研究负责人陈博远揭秘：底层架构已彻底重构。لكن هو يرفض أيضًا الإجابة عما إذا كان يستخدم نموذج الانتشار أو تقنية التوليد التلقائي، فقط يصفه بشكل غامض بأنه "نموذج عام" أو "GPT في مجال الصور".كما كشف تغريدة لChen Boyuan أنه منذ إطلاق GPT Image 1.5 في نهاية ديسمبر من العام الماضي، تم تحقيق تحسينات كبيرة خلال أربعة أشهر فقط.هذه النتائج الرائدة، فريقها الأساسي يتكون من 13 شخصًا فقط.نشر قائد الفريق Gabriel Goh صورة جماعية لأعضاء الفريق وهم يستخدمون الذكاء الاصطناعي.وفي قسم التعليقات، عبّر بعض المستخدمين عن دهشتهم: لماذا كلهم آسيويون؟Chen Boyuan: من عدم فهم بايثون إلى قائد أبحاث---------------------------GPT Image 2

金色财经_

2026-04-23 07:49:37

انتشرت صورة GPT Image2 على مستوى الإنترنت، لكن لماذا كانت النتائج فعلاً جيدة جدًا؟

كشف الباحث المسؤول عن الدراسة، تشن بويوان: أن الهيكل الأساسي قد تم إعادة بنائه بالكامل.

لكنّه رفض الإجابة عما إذا كان يستخدم نموذج الانتشار أو تقنية التوليد التلقائي الذاتي، ووصفه بشكل غامض بأنه “نموذج عام” أو “GPT في مجال الصور”.

كما كشفت تغريدة لتشن بويوان أنه منذ بداية GPT Image 1.5 في نهاية ديسمبر من العام الماضي، لم يمضِ سوى أربعة أشهر حتى حدثت هذه التحسينات الكبيرة.

بهذا الإنجاز الثوري، الفريق الأساسي يتكون من 13 شخصًا فقط.

نشر قائد الفريق، غابرييل جوه، صورة جماعية لأعضاء الفريق مع الذكاء الاصطناعي.

وفي قسم التعليقات، عبّر بعض المستخدمين عن دهشتهم: لماذا كلهم آسيويون؟

تشين بويوان: من عدم فهم بايثون إلى قائد أبحاث

ما هو الهيكل الذي يعتمد عليه GPT Image 2؟

ربما لن تعلن OpenAI عن ذلك لفترة طويلة، لكن من خلال خلفية أعضاء الفريق الأكاديمية يمكن ملاحظة بعض الأدلة.

تشين بويوان هو قائد أبحاث الفريق، ورافقه في الدراسة الدكتور كيواهان سونج في معهد ماساتشوستس للتكنولوجيا، حيث كان لديهم نفس المشرف، فنسنت سيتزمان.

عمله الرائد خلال الدكتوراه، “الانتشار القسري: التنبؤ بالرمز التالي يلتقي بالانتشار عبر التسلسل الكامل”، تم اختياره للمشاركة في NeurIPS 2024.

هذه الدراسة اقترحت نمط تدريب جديد لتوليد التسلسل، يُسمى “الانتشار القسري”، الذي يدمج انتشار الضوضاء المستقل لكل رمز مع التنبؤ السببي بالرمز التالي، مما يجمع بين قدرات التوليد ذات الطول المتغير لنموذج التوليد التلقائي والنموذج الانتشاري الكامل للسلاسل الطويلة.

خلال تدريبه في جوجل، نشر أيضًا ورقة مشتركة بعنوان SpatialVLM.

من خلال بناء مجموعة بيانات استنتاج فضاء ثلاثي الأبعاد على الإنترنت (عشرة ملايين صورة، وعشرين مليار سؤال وجواب)، زود النموذج بقدرات استنتاج فضائي كمي / نوعي، بحيث يمكنه من صورة ثنائية الأبعاد واحدة إخراج مسافات، وأحجام، واتجاهات بدقة عالية.

هذه الدراسة طبقت التفكير التسلسلي في استنتاج الفضاء على مجال الذكاء الحسي.

خلال تدريبه في جوجل، طوّر تقنية التخصيص الدقيق للأوامر، والتي تم اعتمادها لاحقًا في Gemini 2.0.

عندما كان في المدرسة الثانوية، لم يكن يعرف أساسيات بايثون، لكن حينها تعرف على الباحث المخضرم في DeepMind، شا فاي، الذي أدخله إلى عالم الذكاء الاصطناعي.

دعاه شا فاي مرتين لإتمام تدريب عالي الجودة في DeepMind، مما أكسب تشن بويوان خبرة عملية واسعة في تدريب النماذج الكبيرة، وقدم له رؤى قيمة حول متطلبات البيانات للأنظمة متعددة الوسائط.

بعد تخرجه، انضم إلى OpenAI في يونيو 2025، وأصبح بسرعة واحدًا من خمسة أعضاء رئيسيين في فريق توليد الصور GPT، مسؤولاً عن تدريب جميع نماذج توليد الصور، وهو أيضًا عضو في فريق توليد الفيديو Sora.

في عرض تقديمي، صنع ملصقًا لمدينته وويكسو، ثم ملصقًا بكورية لزميل من سول، وملصقًا باللغة البنغلاديشية لزميل من بنغلاديش. وكانت النصوص في كل ملصق دقيقة جدًا.

د. جيانفنغ وانغ من جامعة العلوم والتكنولوجيا الصينية: جعل الذكاء الاصطناعي يفهم المعرفة العالمية

حاصل على دكتوراه من جامعة العلوم والتكنولوجيا الصينية، جيانفنغ وانغ مسؤول عن قدرة مذهلة أخرى في فريق GPT Image 2: الالتزام بالأوامر وفهم العالم.

النموذج القديم كان دائمًا يرسم الساعة عند 10:10، استنادًا إلى صورة إعلانية لساعة على الإنترنت، وكانت دائمًا تشير إلى 10:10 تقريبًا.

وذلك لأن شركات الساعات أجروا تجارب مع علماء نفس، واعتقدوا أن ذلك يعزز رغبة المستهلكين في شراء الساعات.

أما النموذج الجديد، فيرسم الساعة عند 2:25، 3:30، 9:10، 7:45 بدقة عالية.

وهذا مجرد بداية.

يُظهر النموذج قدرات أكثر تعقيدًا، مثل ترتيب الأجسام: تفاحة في المركز، كوب على اليمين، كتاب فوق، كاميرا على اليسار، كرة سلة في الأسفل. وكلها تنفذ بدقة.

قبل انضمامه إلى OpenAI، عمل في مايكروسوفت لمدة تقارب 9 سنوات، وتعاون مع فريق OpenAI على مشروع DALL·E 3.

نشر العديد من الأوراق العلمية في مجال الرؤية الحاسوبية، والتي قد تتناول تصنيف الصور، واكتشاف الأهداف، والتقسيم الدلالي، وتعلم التمثيلات البصرية.

القدرة على فهم المعرفة العالمية بشكل كبير، مع فهم دقيق للمحتوى الدلالي والوظيفي للأشياء.

وفي نهاية عرض الفيديو، قال جيانفنغ وانغ: “GPT Image 2 يقترب من تقليل الفجوة بين نواياك وإنتاج النموذج.”

أي أن النموذج يحقق ما تريده حقًا.

يانغ يوجوانغ: إنشاء مخططات معلوماتية عالية الدقة ومعقدة

في فعالية إصدار GPT Image 2، عرض يانغ يوجوانغ قدرته على توليد المخططات المعلوماتية وملفات PPT.

نُشرت 75 صفحة من ورقة بحث GPT-3، وتم تحويلها إلى ChatGPT، حيث تم توليد 7 شرائح تلقائيًا.

خبرته تعتبر من الأبرز بين أعضاء الفريق، حيث تنقّل بين مجالات متعددة، لكن دائمًا في مجال التعلم الآلي.

درس الهندسة في كلية زهو كوتشين بجامعة تشجيانغ، وحصل على الدكتوراه في الكيمياء الفيزيائية والتعلم الآلي من جامعة جونز هوبكنز.

عمل كمحلل كمي في البداية، وخلال فترة بحث زائر في Tsinghua، عمل على خوارزميات التعلم المعزز والتحكم للروبوتات النانوية.

ثم عمل في أمازون على أبحاث الصوت في Alexa.

وعمل في مايكروسوفت على فهم واسترجاع استعلامات Bing، وفهم المستندات.

انضم إلى OpenAI في بداية 2025، وشارك في مشاريع توليد الصور وذكاء المحادثة ChatGPT.

يذكر على حسابه الشخصي أن قدرات GPT Image 2 على إنشاء المخططات المعلوماتية يمكن أن توفر وقتًا كبيرًا للباحثين.

ويحذر دائمًا من أهمية التفكير عند تصميم المخططات المعلوماتية.

من DALL·E إلى GPT Image 2.0

من خلال السيرة الذاتية للعضو كينجي هاتا، علم أن GPT Image 1.0 هو جزء من توليد الصور في GPT-4o.

شخص واحد بدأ مشاركته مع DALL·E في جميع مراحل أبحاث النموذج متعدد الوسائط في OpenAI.

هو غابرييل جوه، قائد فريق GPT Image 2.0.

انضم إلى OpenAI منذ 2019، وتركزت أبحاثه المبكرة على التفسيرية والتقنيات التحسينية، ثم بدأ يتجه تدريجيًا نحو توليد الصور.

أما السيرة الذاتية لعضو آخر، ويكسين ليانج، فتكشف عن خلفية تقنية مميزة.

خلال تدريبه في Meta، قدم عملًا رئيسيًا بعنوان “خليط المحولات” (Mixture-of-Transformers)، الذي أدخل فك ارتباط الوسائط باستخدام MoE والانتباه المفكك، مما قلل بشكل كبير من تكاليف الحوسبة أثناء التدريب متعدد الوسائط.

حصل على الدكتوراه من ستانفورد، ودرس في زهو كوتشين بجامعة تشجيانغ، لكنه انضم إلى OpenAI بعد تخرجه بعدة سنوات، وهو الآن أحد الأعضاء الأساسيين.

أما باقي أعضاء فريق GPT Image 2.0 فهم:

أيّان هاك، الذي عمل سابقًا في Luma AI، وشارك في تدريب النموذج الأساسي للفيديو Dream Machine.

بنج ليانغ، الذي عمل أكثر من 5 سنوات في Google، وشارك في مشاريع Imagen3، Veo، Gemini Multimodal، وانضم إلى OpenAI في 2025 للعمل على توليد الصور.

مينغتشاو تشونغ، زميل من جامعة Shanghai Jiao Tong، وماجستير من جامعة تكساس A&M، عمل مهندس برمجيات في Pinterest وAirtable، ومسؤول عن المنتجات متعددة الوسائط في OpenAI.

ديبيا بهاتاتشارجي، من جامعة ييل، حائز على ميدالية برونزية في IPhO 2015، وأعلى درجات في الرياضيات والأحياء في اختبار CIE A-Level.

كيواهان سونج، الذي انضم في أكتوبر 2025، بالإضافة إلى أبحاثه، هو أيضًا خبير في الكلمات المفتاحية، وغالبًا ما يكون مسؤولًا عن الصور التقديمية الرسمية.

……

من DALL·E الأقدم إلى اليوم، استطاع فريق GPT Image 2.0 أن يحقق: رسم الصور بوضوح، ودقة، وجمال، وموثوقية.

رغم التنقل الكبير في المواهب داخل OpenAI في السنوات الأخيرة، إلا أن الشركة لا تزال تجذب أشخاصًا مميزين، وتقبل التخصصات المتنوعة، وترحب بالتداخل بين المجالات، وتؤمن بالبحث التوليدي من الأسفل إلى الأعلى.

بدأت بفريق صغير، ومع تحقيق إنجازات، زادت الموارد، حتى غيرت العالم.

شيء آخر

في السابق، كانت صور GPT-4o التي تحاكي أسلوب جيبلي في رسم الوجوه تثير إعجاب العالم بأسره.

أما الآن، فكل أعضاء فريق GPT Image 2.0 يغيرون صورهم الشخصية إلى هذا الأسلوب الغريب.

ما هو سر هذا الأسلوب في الرسم؟ كشف أعضاء الفريق عن الكلمات المفتاحية المستخدمة.

استخدم صوري فقط للهوية. أعد رسم نفسي ككاريكاتير بسيط جدًا بأسلوب ملصق ياباني سريالي: عنق طويل رفيع، وجه صغير بلا تعابير، خط أسود بسيط، تلوين مسطح، بدون تظليل تقريبًا، تفاصيل وجه قليلة جدًا، شكل شعر مبسط، مساحة بيضاء كثيرة، خلفية بيضاء عادية، غريب بعض الشيء ومضحك. صورة بنسبة 1:3 عالية الدقة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.24M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
803.06K درجة الشعبية
#
BitcoinBouncesBack
224.28K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.66K درجة الشعبية
#
EthereumMemeSeasonReturns
2.01M درجة الشعبية

تثبيت

خريطة الموقع

نصف فريق GPT Image 2 من الصين يكشف النقاب عن 13 شخصًا خلال 4 أشهر من التميز

تشين بويوان: من عدم فهم بايثون إلى قائد أبحاث

د. جيانفنغ وانغ من جامعة العلوم والتكنولوجيا الصينية: جعل الذكاء الاصطناعي يفهم المعرفة العالمية

يانغ يوجوانغ: إنشاء مخططات معلوماتية عالية الدقة ومعقدة

من DALL·E إلى GPT Image 2.0

شيء آخر

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

تثبيت