Model besar masih fokus pada parameter, tetapi yang benar-benar mulai membatasi industri adalah hal lain: penyimpanan konteks.


Ketika panjang inferensi, rantai panggilan Agent, dan memori jangka panjang semuanya bertambah panjang, yang benar-benar menentukan pengalaman dan biaya bukan hanya kekuatan komputasi, tetapi juga “apakah konteks dapat dibaca, ditulis, dijadwalkan, dan digunakan kembali secara efisien.” Inilah sebabnya mengapa akhir-akhir ini pasar mulai beralih perhatian ke Infrastruktur dasar seperti Memori Konteks, KV Cache, dan lapisan penyimpanan inferensi.
Tahap berikutnya dalam kompetisi AI mungkin bukan tentang siapa yang dapat menghasilkan lebih banyak konten, tetapi siapa yang dapat membuat model bekerja secara stabil dan biaya rendah dalam tugas yang lebih panjang.
Jika era pelatihan mengandalkan GPU, maka era Agent mengandalkan Memori.
Ini juga yang saya diskusikan di sebuah grup tentang mengapa lobster layak untuk dimainkan. Saya bilang bahwa kode Claude semuanya ditujukan untuk lobster. Tapi mereka mengatakan tentang konteks lengkap, saya malah kehabisan kata-kata, dan dengan jujur kembali memelihara lobster.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan