Tencent merilis model dunia Hunyuan 2.0 sumber terbuka, satu kalimat menghasilkan dunia 3D yang dapat dijelajahi, langsung impor ke Unity dan UE

robot
Pembuatan abstrak sedang berlangsung

Berita ME News, 16 April (UTC+8), menurut pemantauan Beating dari Dongcha, Tencent secara resmi merilis dan membuka sumber model dunia 3D Hyun Yuan 3D World Model 2.0 (HY-World 2.0). Ini adalah kerangka model dunia multimodal yang mendukung input teks, gambar tunggal, gambar multi-sudut, dan video, dengan output bukan video, melainkan aset 3D yang dapat diedit (model jaringan, semburan Gaussian 3D, point cloud), yang dapat langsung diimpor ke Unity, Unreal Engine, dan NVIDIA Isaac Sim. Bobot model dan kode tersedia sebagai sumber terbuka di GitHub dan Hugging Face. Perbedaan mendasar dengan model dunia video seperti Genie 3 dan Cosmos adalah: model dunia video menghasilkan video tingkat piksel yang hilang setelah diputar dan tidak dapat diedit; HY-World 2.0 menghasilkan aset 3D yang permanen, mendukung berjalan bebas, tabrakan fisik, dan pengeditan ulang. Dalam laporan teknis, Tencent merangkum perbedaan ini sebagai “menonton sebuah video lalu hilang” versus “membangun sebuah dunia yang permanen”. Dengan GPU konsumen, dapat melakukan rendering secara real-time, inference hanya sekali, berbeda dengan model dunia video yang harus dijalankan untuk setiap frame. Secara teknis, terdiri dari empat tahap: pertama menggunakan HY-Pano 2.0 untuk menghasilkan gambar panorama 360 derajat dari input, kemudian menggunakan WorldNav untuk perencanaan jalur, lalu menggunakan WorldStereo 2.0 untuk memperluas dunia sepanjang jalur, dan terakhir menggunakan WorldMirror 2.0 untuk merekonstruksi semua fragmen yang dihasilkan menjadi satu scene 3D yang seragam. Dalam solusi sumber terbuka, HY-World 2.0 disebut sebagai model dunia 3D pertama yang mencapai tingkat SOTA, hasilnya sebanding dengan produk komersial tertutup Marble. Namun saat ini, hanya kode dan bobot untuk WorldMirror 2.0 (modul rekonstruksi 3D, sekitar 1,2 miliar parameter) yang dirilis secara terbuka, sedangkan kode dan bobot untuk modul generasi panorama, perencanaan jalur, dan perluasan dunia ditandai sebagai “akan segera dirilis”. Bagi pengembang game, ini berarti dapat dengan cepat menghasilkan prototipe level dan peta dengan satu kalimat, menghemat waktu pemodelan manual yang banyak. Bagi peneliti kecerdasan embodied, biaya untuk menghasilkan lingkungan simulasi dari foto secara massal berkurang secara signifikan. Tencent juga meluncurkan akses pengalaman daring, di mana pengguna dapat mengendalikan karakter untuk menjelajahi jalan dan bangunan yang dihasilkan secara bebas. (Sumber: BlockBeats)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan