半壁华人 GPT Image 2チームが明らかに 13人が4ヶ月で神格化

GPT Image2が全ネットで話題沸騰だが、その効果は一体なぜこれほどまでに良いのか?

研究責任者の陳博遠が明かす:基盤アーキテクチャは徹底的に再構築された。

しかし彼は、拡散モデルや自己回帰技術を採用しているかどうかの回答を拒否し、ただ神秘的にそれを「汎用モデル」や「画像領域のGPT」と表現した。

陳博遠のツイートによると、昨年12月末のGPT Image 1.5から数えてわずか4ヶ月でこれほど大きな改良があったという。

この突破的な成果のコアチームはわずか13人。

チーム全体の責任者であるGabriel GohがメンバーのAI全家族写真を公開した。

コメント欄にはネットユーザーが感嘆:なぜ全員アジア人ばかり?

陳博遠:Pythonを全く知らなかった頃からリサーチリードへ

GPT Image 2は一体どんなアーキテクチャなのか?

OpenAIは恐らく長い間公開しないだろうが、コアチームメンバーの学歴からいくつかの痕跡が見て取れる。

陳博遠はチームのResearch Leadであり、もう一人のメンバーであるKiwhan SongとともにMITで博士号を取得中、同じ指導教官のVincent Sitzmannのもとで学んだ。

彼の博士論文の代表作「Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion」はNeurIPS 2024に選出された。

この研究は、Diffusion Forcingという全く新しいシーケンス生成の訓練パラダイムを提案し、逐トークンの独立したノイズ拡散と因果的次トークン予測を結びつけ、自回帰モデルの可変長生成と全シーケンス拡散モデルの長距離誘導の利点を融合させた。

彼はGoogleインターン時に共同著者としてSpatialVLMを発表。

インターネット規模の3D空間推論VQAデータセット(1000万画像、20億QAペア)を自動構築し、視覚言語モデルに定量的・定性的な空間推論能力を付与。単一の2D画像からメートル単位の距離、サイズ、方位などの正確な数値を出力可能にした。

この研究は思考連鎖の空間推論を具身知能の分野に応用した。

Googleインターン中に開発した指令微調整技術は、その後Gemini 2.0にも採用された。

彼は高校時代、科研サマーキャンプに参加した際にPythonの基本文法も知らず、その時知り合ったGoogle DeepMindのシニアリサーチャー夏斐にAIの世界へ導かれた。

夏斐は二度にわたり彼をDeepMindで高品質なインターンに招き、その経験は陳博遠に大規模モデル訓練のエンジニアリング経験を積ませ、多モーダルシステムのデータニーズ理解にも貴重な視点をもたらした。

博士卒業後、陳博遠は2025年6月にOpenAIに加入し、迅速にGPT画像生成のコアメンバーの一人となり、GPT画像生成モデルの全訓練を担当。さらにSora動画生成チームの一員でもある。

デモでは、故郷の無錫のポスターを作成し、その後ソウル出身のチームメンバーのために韓国語のポスター、バングラデシュ出身のメンバーのためにベンガル語のポスターも作成。すべての文字レンダリングは正確無比だった。

中科大のWang Jianfeng:生画像AIに世界知識を理解させる

中科大博士のWang Jianfengは、GPT Image 2チームで驚くべき能力の一つ、指令遵守と世界理解を担当。

旧モデルが描く永遠の時計は常に10:10を指していたが、これはネット上の時計広告画像に由来し、ほぼ一色だった。

これは時計メーカーが心理学者に依頼した実験に基づき、これが消費者の時計購入意欲を刺激すると考えられたためだ。

彼は新モデルに2:25、3:30、9:10、7:45を描かせたが、すべて正確だった。

これは序章に過ぎない。

より複雑な空間配置も、リンゴは中央、カップは右側、本は上、カメラは左、バスケットボールは下に配置され、モデルはすべて正確に再現した。

OpenAI加入前はMicrosoftで約9年勤務。

Microsoft在籍中にOpenAIのDALL·E-3との協力も行った。

彼はコンピュータビジョン分野で多くの学術論文を発表し、研究内容は画像分類、物体検出、意味分割、視覚表現学習など多岐にわたる。

世界知識理解能力の大幅な向上により、対象の意味内容や機能構造を正しく理解できるようになった。

Wang Jianfengはデモ動画の最後で、「GPT Image 2はあなたの意図とモデルの出力のギャップを埋めつつある」と語った。

あなたが望むものを正確に出力する、真の意味での実現を目指している。

Yuguang Yang:高精度かつ複雑な情報グラフの生成

Yuguang YangはGPT Image 2のリリースイベントで、情報グラフやPPTの生成をデモ。

75ページのGPT-3論文をChatGPTに取り込み、自動的に7枚のスライドを作成した。

彼の経歴はチームメンバーの中でも最も豊富で、職歴も多岐にわたるが、すべて機械学習に焦点を当てている。

彼は浙江大学竺可桢学院で工学を学び、ジョンズ・ホプキンズ大学で計算化学物理と機械学習を修めた。

最初のフルタイムはクオンツアナリスト、その後清華大学の客員研究員時代にはナノロボット用の強化学習と制御アルゴリズムを研究。

その後AmazonでAlexaの音声研究に従事。

次にMicrosoftでBingのクエリ理解と検索、ドキュメント理解に携わった。

2025年初めにOpenAIに加入し、画像生成だけでなくChatGPTのインテリジェントエージェントプロジェクトにも参加。

彼は個人アカウントで、GPT Image 2の情報グラフ生成能力が研究者の時間節約に役立つと紹介。

また、情報グラフ作成時には思考モードの選択を忘れずにと何度も注意喚起している。

DALL-EからGPT Image 2.0へ

チームメンバーのKenji Hataの自己紹介から、GPT Image 1.0、すなわちGPT-4oの画像生成部分がわかる。

DALL-Eから始まり、OpenAIの多モーダル研究の全過程に関わった人物がいる。

それがGPT Image 2.0チームのリーダーGabriel Gohだ。

2019年にOpenAIに参加し、初期の研究は理論寄りで、解釈性や凸最適化に焦点を当てていた。

そこから徐々に画像生成へとシフトしていった。

もう一人のチームメンバーWeixin Liangの研究履歴を見ると、GPT Image 2の技術的背景の一端が見えてくる。

彼はMetaでのインターン時に代表作のMixture-of-Transformersを発表し、モーダル解耦のMoEや解耦注意を導入、マルチモーダルモデルの事前学習の計算コストを大幅に削減した。

彼はスタンフォード大学で博士号を取得し、学部も浙江大学竺可桢学院出身だが、Yuguang Yangよりも数年遅い。

Weixin Liangも陳博遠と同じく、2025年に博士号取得後すぐにOpenAIに加入し、チームの中核メンバーとなった。

その他のGPT Image 2.0チームメンバーは以下の通り:

Ayaan Haque、以前Luma AIで勤務し、Lumaの動画生成基盤モデルDream Machineの訓練に関わった。

Bing Liang、Googleで5年以上勤務し、Imagen3、Veo、Gemini Multimodalに参加。2025年にOpenAIに移籍し画像生成研究を担当。

Mengchao Zhong、上海交通大学出身、テキサス農工大学で修士号取得。PinterestやAirtableでソフトウェアエンジニアを務め、OpenAIでは多モーダル製品のエンジニアリングを担当。

Dibya Bhattacharjee、イェール大学出身、2015年IPhO銅メダル、CIE Aレベル数学・生物の世界最高得点。

Kiwhan Songは2025年10月に最も遅く加入。研究だけでなく、チームのプロンプトマスターでもあり、多くの公式デモ画像は彼の手による。

……

最も古いDALL-Eから今日のGPT Image 2.0まで、このチームは次々と解決してきた。描き出せる、鮮明に描ける、美しく描ける、正確に描ける。

近年、OpenAIの人材流動は激しいが、それでもOpenAIは多彩な個性を持つ人材を引きつけ続け、専門性にとらわれず、クロスオーバーを歓迎し、ボトムアップの研究を信奉する企業だ。

小さなチームから始まり、突破を得て、より多くのリソースを投入し、世界を変えてきた。

One More Thing

かつて、GPT-4oの画像生成はジブリ風のアイコンを模倣した头像が世界中を席巻した。

今やGPT Image 2.0のチームメンバーは皆、自分の头像もこの奇妙な首長風の絵に変えている。

この絵風のプロンプトは何だろうか?チームメンバーも公開している。

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン