Penelitian terbaru dari MIT memberikan sebuah wawasan menarik: ketika Anda menangani urutan token yang melebihi puluhan juta, solusi dengan performa terbaik bukanlah dengan menumpuk kemampuan dalam bobot model—melainkan memisahkan logika komputasi inti ke dalam lingkungan terstruktur eksternal. Untuk lingkungan eksekusi kode, ini adalah contoh praktik dari ide tersebut.



Dari sudut pandang lain, media pengetahuan dan penalaran sedang mengalami perubahan. Dulu kami mengira bahwa bobot model adalah wadah untuk memahami segalanya, tetapi penelitian ini menunjukkan bahwa ketika skala cukup besar, kecerdasan yang benar-benar muncul justru berasal dari kerangka eksternal yang dirancang dengan cermat—yaitu struktur geometris tersebut. Makna di balik ini cukup mendalam: arsitektur AI di masa depan mungkin akan semakin menyerupai rekayasa, semakin bergantung pada desain sistem yang cerdas daripada sekadar skala model.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • Posting ulang
  • Bagikan
Komentar
0/400
TxFailedvip
· 3jam yang lalu
Pandangan ini memang menangkap sesuatu. Selalu merasa kita telah berjalan terlalu lama di jalur "berusaha keras menciptakan keajaiban", selalu berpikir untuk menumpuk parameter dan data, tetapi sebenarnya hambatan utama terletak pada arsitektur sistem. Ide tentang lingkungan terstruktur eksternal ini agak mirip dengan kembali ke intuisi rekayasa perangkat lunak tradisional—masalah kompleks bukan diselesaikan dengan kekuatan satu modul tunggal, tetapi melalui kombinasi dan desain yang cermat. Hanya saja penasaran, bagaimana sebenarnya "kerangka eksternal" dalam penelitian ini mengukur efisiensi? Misalnya, dibandingkan dengan lingkungan eksekusi kode dan inferensi model end-to-end, bagaimana pertimbangan antara latensi nyata dan biaya? Rasanya ini adalah kunci yang benar-benar dapat diimplementasikan.
Lihat AsliBalas0
screenshot_gainsvip
· 3jam yang lalu
Sudut pandang ini memang benar-benar mengubah persepsi. Sebelumnya saya selalu berpikir bahwa hukum skala hanyalah tentang menumpuk parameter, tidak menyangka bahwa hambatan sebenarnya terletak pada desain arsitektur. Dengan konteks yang panjang, memindahkan inferensi ke lingkungan eksternal, bukankah ini sedang mendekonstruksi model itu sendiri? Rasanya kompetisi di masa depan akan beralih dari siapa yang memiliki model lebih besar, menjadi siapa yang dapat merancang sistem yang lebih elegan. Ini sedikit seperti beralih dari kompetisi kekuatan komputasi mentah ke era estetika rekayasa.
Lihat AsliBalas0
StableCoinKarenvip
· 3jam yang lalu
Sudut pandang ini memang layak dipertimbangkan. Tapi saya ingin bertanya, apakah kompleksitas desain kerangka eksternal pada dasarnya juga termasuk dalam "penumpukan" atau tidak, hanya saja objek penumpukannya berpindah dari bobot ke arsitektur sistem? Rasanya ini lebih merupakan trade-off daripada terobosan fundamental—mengalihkan masalah dari dimensi model ke dimensi rekayasa, pada akhirnya tetap membutuhkan waktu dan biaya untuk mengoptimalkan struktur eksternal ini. Saya ingin tahu apakah pemahaman saya melenceng.
Lihat AsliBalas0
HodlTheDoorvip
· 3jam yang lalu
Pemikiran ini memang membongkar kerangka pemahaman kita sebelumnya. Sebelumnya kita fokus pada jumlah parameter, sekarang tampaknya desain sistem eksternal adalah kuncinya, terasa seperti pergeseran paradigma dari penumpukan ke arsitektur. Tapi saya cukup penasaran, bagaimana keberlanjutan dan biaya dari solusi yang memisahkan ke kerangka eksternal ini saat diterapkan dalam proyek nyata? Bagaimanapun, bobot meskipun "berat", setidaknya merupakan kotak hitam yang seragam, sementara lingkungan yang terstruktur jika dirancang tidak tepat bisa dengan mudah menjadi bottleneck kinerja. Apakah makalah MIT memiliki data yang sepadan untuk bagian ini?
Lihat AsliBalas0
GasFeeTherapistvip
· 3jam yang lalu
Pemikiran ini memang mengubah pemahaman saya tentang model besar. Sebelumnya selalu merasa harus mengejar parameter yang lebih besar, sekarang tampaknya pendekatan itu mungkin salah arah. Menyematkan logika komputasi ke lingkungan yang terstruktur terdengar seperti perubahan cara berpikir dari memori overflow ke penyimpanan di hard disk—masalahnya bukan pada kapasitas, tetapi bagaimana mengaturnya. Contoh lingkungan eksekusi kode sangat menyentuh inti, model itu sendiri tidak perlu "mengerti" cara menjalankan kode, cukup mengatur jadwal dengan benar. Jika dipikir seperti ini, di masa depan mungkin tidak perlu lagi perlombaan jumlah parameter, malah tim yang mampu merancang kerangka kerja terbaik akan menang.
Lihat AsliBalas0
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)