Google secara terbuka memisahkan pembelajaran dan penalaran AI dengan TPU 8t·8i... apakah ini bisa mengguncang pasar yang berpusat pada Nvidia

robot
Pembuatan abstrak sedang berlangsung

Google untuk menyambut “Era Agen Pintar”, mengubah strategi semikonduktor kecerdasan buatan. Mereka melepaskan pendekatan sebelumnya yang menggunakan chip umum tunggal untuk memproses pembelajaran dan penalaran secara bersamaan, dan meluncurkan “TPU 8t” untuk pembelajaran skala besar dan “TPU 8i” untuk penalaran dengan tingkat paralel tinggi.

Pada tanggal 23 (waktu setempat), Google mengumumkan dua chip AI kustom di acara “Google Cloud Next 2026” yang diadakan di Las Vegas, AS. Perusahaan menyatakan bahwa pasar AI sedang dengan cepat terbagi menjadi “fase membangun model” dan “fase mengimplementasikan model ke layanan nyata”, dan menjelaskan bahwa TPU baru dirancang untuk menyesuaikan dengan perubahan kebutuhan ini.

Jika sebelumnya “Ironwood TPU” adalah platform flagship tunggal untuk era penalaran, maka ciri dari generasi ini adalah strukturnya sendiri yang menjadi dualistik. Ini diartikan bahwa Google menilai, seiring dengan menyebarnya agen AI, kebutuhan infrastruktur untuk melatih model yang lebih besar dan infrastruktur penalaran yang mampu menjalankan model tersebut secara cepat di cloud sedang tumbuh secara bersamaan.

TPU 8t: Meningkatkan Kinerja dan Efisiensi Biaya Pelatihan AI Skala Besar

TPU 8t adalah chip yang fokus pada pelatihan pra-latih skala besar dan beban kerja berbasis embedding. Google menyatakan bahwa produk ini menggunakan topologi jaringan “lingkaran 3D”, yang meningkatkan skalabilitas klaster besar. Jumlah chip yang dapat terhubung dalam satu Pod adalah 9600, lebih tinggi dari 9216 pada Ironwood.

Inti dari chip ini adalah mendukung “SparseCore” dan operasi floating point 4-bit. SparseCore adalah akselerator khusus yang digunakan untuk menangani akses memori tidak teratur yang sering muncul selama pencarian model bahasa besar. Google mengklaim bahwa dengan menggabungkan operasi bit rendah, beban bandwidth memori berkurang, sehingga meskipun kapasitas memori lebih kecil, akurasi tetap terjaga, dan throughput meningkat dua kali lipat.

Ini mengikuti tren teknologi yang disebut “kuantisasi”. Mengurangi jumlah bit yang dibutuhkan untuk setiap parameter berarti model yang lebih besar dapat dijalankan bahkan di sistem dengan spesifikasi lebih rendah, sekaligus mengurangi konsumsi daya dan ruang. Google menyatakan bahwa dalam lingkungan pelatihan skala besar, TPU 8t memberikan peningkatan performa hingga 2,7 kali lipat per dolar dibandingkan Ironwood.

TPU 8i: Fokus pada Kecepatan Penalaran dan Kemampuan Paralel Tinggi

TPU 8i dirancang khusus untuk tahap penalaran dari model yang telah selesai dilatih dan digunakan dalam layanan nyata. Chip ini sangat unggul dalam post-processing model besar dan menangani banyak permintaan pengguna secara bersamaan.

Menurut Google, TPU 8i dilengkapi dengan tiga kali lipat memori akses acak statis (SRAM) dibandingkan Ironwood. Ini memungkinkan penyimpanan cache “kunci-nilai” yang lebih besar untuk penalaran model bahasa besar, sehingga meningkatkan kecepatan generasi teks. Selain itu, Google juga menerapkan sistem penalaran bernama “Collectives Acceleration Engine”. Sistem ini bertanggung jawab mempercepat operasi sinkronisasi dan reduksi yang diperlukan dalam decoding autoregressive dan proses “chain of thought”.

Struktur koneksi antar chip juga didesain ulang. Google memperkenalkan topologi jaringan kustom bernama “Boardfly ICI”, yang mampu menghubungkan hingga 1152 chip. Tujuannya adalah agar semua chip dapat saling merujuk secara lebih efisien, mengurangi jarak dan jumlah lompat data. Google menyatakan bahwa dalam komunikasi “All-to-All” yang diperlukan untuk model bahasa besar dan model penalaran berbasis campuran ahli, total jumlah lompat dapat dikurangi hingga 50%.

Efisiensi biaya juga menjadi fokus utama. Google menjelaskan bahwa desain TPU 8i bertujuan untuk lingkungan dengan latensi rendah, dan mampu meningkatkan performa sekitar 80% per dolar dibandingkan Ironwood, sangat menguntungkan untuk layanan model campuran ahli yang sangat besar dan canggih.

Strategi Google: Apakah Bisa Mengguncang Pasar yang Didominasi NVIDIA?

Google menambahkan bahwa performa per watt dari TPU 8t dan TPU 8i meningkat dua kali lipat dibanding generasi sebelumnya. Efisiensi energi adalah variabel kunci yang menentukan profitabilitas pusat data AI besar, sehingga peningkatan ini sangat berarti.

Peluncuran ini bukan sekadar memperkenalkan produk semikonduktor baru, melainkan sinyal resmi bahwa Google memisahkan strategi infrastruktur AI mereka menjadi “pelatihan” dan “penalaran”. Dalam tren kompetisi layanan AI yang beralih dari performa model ke biaya operasional, kecepatan respons, dan kapasitas paralel, Google berusaha meningkatkan pangsa cloud mereka melalui TPU.

Pasar berpendapat bahwa variabel utama yang akan menentukan keberhasilan adalah kecepatan adopsi oleh pelanggan nyata dan kompatibilitas perangkat lunak saat bersaing dengan ekosistem yang didominasi NVIDIA. Namun, seiring dengan menyebarnya agen AI, kebutuhan akan semikonduktor untuk pelatihan dan penalaran meningkat secara bersamaan, dan strategi dualistik TPU ini kemungkinan besar akan menjadi titik balik penting dalam kompetisi infrastruktur AI di masa depan.

Catatan AI TPU Artikel ini dirangkum berdasarkan model bahasa TokenPost.ai. Isi utama mungkin terdapat kekurangan atau ketidaksesuaian dengan fakta.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan