GoogleDeepMind merilis TIPSv2, pengkode gambar dan teks dasar persepsi ruang

ME News Berita, 15 April (UTC+8), Google DeepMind baru-baru ini merilis TIPSv2 di CVPR 2026, sebuah encoder dasar gambar dan teks yang memiliki kemampuan persepsi ruang. Model ini mencapai hasil yang kuat dalam kinerja keseluruhan dan menunjukkan peningkatan kinerja yang signifikan dalam tugas penyelarasan blok gambar dan teks. Pihak pengumum menyatakan bahwa AI multimodal yang sejati membutuhkan pemahaman tentang hubungan ruang di dunia. (Sumber: InFoQ)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan