a16z: Penerapan model besar menyebabkan lupa, apakah "Pembelajaran Berkelanjutan" bisa memutus siklus mati ini?

Question

Penulis: Malika Aubakirova、Matt Bornstein

Diterjemahkan: Deep潮 TechFlow

Deep潮 Panduan: Model bahasa besar setelah selesai dilatih langsung “beku”, dan setelah deployment hanya bisa mengandalkan jendela konteks, RAG, dan patch eksternal lainnya untuk menjaga operasionalnya—pada dasarnya sama seperti pasien amnesia dalam film “Memento”—bisa melakukan pencarian, tetapi tidak benar-benar belajar hal baru. Dua mitra dari a16z secara sistematis menguraikan arah penelitian frontier “pembelajaran berkelanjutan”, dari konteks, modul, hingga pembaruan bobot, membongkar jalur teknologi yang berpotensi mendefinisikan ulang batas kemampuan AI.

Dalam film Christopher Nolan “Memento”, tokoh utama Leonard Shelby hidup di masa kini yang pecah-pecah. Cedera otak membuatnya menderita amnesia anterograde, tidak mampu membentuk memori baru. Setiap beberapa menit, dunianya direset ulang, terjebak dalam “momen” yang abadi, tidak ingat apa yang baru saja terjadi, dan tidak tahu apa yang akan datang. Untuk bertahan hidup, dia melukis kata-kata di tubuhnya, menempel foto, mengandalkan alat eksternal ini untuk menggantikan fungsi memori yang tidak bisa dilakukan otaknya.

Model bahasa besar juga hidup dalam masa kini yang serupa. Setelah selesai dilatih, pengetahuan dalam jumlah besar dibekukan di parameter, model tidak mampu membentuk memori baru, dan tidak bisa memperbarui parameternya berdasarkan pengalaman baru. Untuk mengatasi kekurangan ini, kita membangun kerangka kerja: riwayat percakapan berfungsi sebagai catatan jangka pendek, sistem pencarian sebagai buku catatan eksternal, prompt system seperti tato di tubuh. Tapi, model itu sendiri, sama sekali tidak menginternalisasi informasi baru tersebut.

Semakin banyak peneliti percaya bahwa ini tidak cukup. Pembelajaran konteks (ICL) bisa menyelesaikan masalah ini, asalkan jawaban (atau fragmen jawaban) sudah ada di suatu sudut dunia. Tapi untuk masalah yang membutuhkan penemuan sejati (misalnya pembuktian matematika baru), skenario adversarial (misalnya keamanan dan pertahanan), atau pengetahuan yang terlalu implisit dan tidak bisa diungkapkan dengan bahasa, ada alasan kuat untuk percaya: model membutuhkan cara agar setelah deployment, pengetahuan dan pengalaman baru bisa langsung tertulis ke dalam parameter.

Pembelajaran konteks bersifat sementara. Pembelajaran sejati membutuhkan kompresi. Sebelum kita mengizinkan model melakukan kompresi berkelanjutan, kita mungkin terjebak dalam masa kini “Memento”. Sebaliknya, jika kita bisa melatih model untuk belajar struktur memorinya sendiri, bukan bergantung pada alat eksternal yang dikustomisasi, kita bisa membuka dimensi skala baru.

Bidang penelitian ini disebut pembelajaran berkelanjutan (continual learning). Konsep ini bukan hal baru (lihat makalah McCloskey dan Cohen tahun 1989), tetapi kami percaya ini adalah salah satu arah penelitian terpenting di AI saat ini. Pertumbuhan kemampuan model dalam dua-tiga tahun terakhir secara eksponensial memperlihatkan jurang yang semakin lebar antara “yang diketahui” dan “yang bisa diketahui”. Tujuan artikel ini adalah berbagi apa yang kami pelajari dari para peneliti top di bidang ini, membantu menjelaskan jalur berbeda dalam pembelajaran berkelanjutan, dan mendorong perkembangan topik ini dalam ekosistem startup.

Catatan: Artikel ini terbentuk berkat diskusi mendalam dengan sekelompok peneliti, mahasiswa doktoral, dan pengusaha hebat yang dengan murah hati berbagi pekerjaan dan wawasan mereka di bidang pembelajaran berkelanjutan. Dari dasar teori hingga realitas engineering setelah deployment, wawasan mereka membuat artikel ini jauh lebih kokoh daripada yang kami tulis sendiri. Terima kasih atas waktu dan ide-ide kalian!

Mari bahas konteks dulu

Sebelum membela argumen bahwa pembelajaran tingkat parameter (yaitu memperbarui bobot model) itu penting, perlu diakui satu fakta: pembelajaran konteks memang berguna. Dan ada argumen kuat yang menyatakan bahwa ini akan terus berlanjut.

Esensi Transformer adalah prediktor token berikutnya berbasis kondisi urutan. Berikan urutan yang benar, dan kamu akan mendapatkan perilaku yang kaya dan mengejutkan, tanpa perlu menyentuh bobot sama sekali. Inilah mengapa manajemen konteks, engineering prompt, fine-tuning instruksi, dan contoh few-shot sangat kuat. Kecerdasan terkandung dalam parameter statis, sementara kemampuan yang muncul sangat dipengaruhi oleh isi jendela yang kamu berikan.

Artikel mendalam Cursor tentang skala agen cerdas otomatis baru-baru ini adalah contoh bagus: bobot model tetap, yang membuat sistem berjalan adalah pengaturan konteks yang cermat—apa yang dimasukkan, kapan dirangkum, dan bagaimana menjaga konsistensi selama berjam-jam operasi mandiri.

OpenClaw adalah contoh lain. Ia menjadi sangat populer bukan karena ada izin khusus pada model (semua orang bisa pakai model dasar), tetapi karena ia mengubah konteks dan alat secara sangat efisien menjadi status kerja: melacak apa yang sedang kamu lakukan, menghasilkan produk tengah yang terstruktur, memutuskan kapan memasukkan prompt lagi, dan menjaga memori jangka panjang dari pekerjaan sebelumnya. OpenClaw mengangkat “desain kerangka” agen ke tingkat disiplin ilmu tersendiri.

Ketika engineering prompt muncul pertama kali, banyak peneliti skeptis bahwa “hanya dengan prompt” bisa menjadi antarmuka yang layak. Terlihat seperti hack. Tapi ini adalah produk asli dari arsitektur Transformer, tidak perlu retrain ulang, dan otomatis meningkat seiring kemajuan model. Model makin kuat, prompt pun makin kuat. Antarmuka “sederhana tapi asli” seringkali menang karena langsung mengikat ke sistem dasar, bukan berkonfrontasi dengannya. Sampai saat ini, tren perkembangan LLM memang seperti itu.

Model ruang status: versi konteks yang lebih kuat

Ketika alur kerja utama beralih dari panggilan LLM dasar ke siklus agen cerdas, tekanan pada model pembelajaran konteks semakin besar. Dulu, jarang sekali jendela konteks penuh terisi. Biasanya terjadi saat LLM diminta menyelesaikan rangkaian tugas diskret, dan lapisan aplikasi bisa secara langsung memotong dan mengompresi riwayat chat. Tapi untuk agen, satu tugas bisa menghabiskan sebagian besar dari total konteks yang tersedia. Siklus agen bergantung pada konteks yang ditransfer dari iterasi sebelumnya. Dan sering gagal setelah 20-100 langkah karena “terputus”: konteks penuh, koherensi menurun, dan tidak konvergen.

Oleh karena itu, banyak laboratorium AI besar menginvestasikan sumber daya besar (pelatihan skala besar) untuk mengembangkan model dengan jendela konteks super panjang. Ini jalur alami karena membangun dari metode yang sudah efektif (pembelajaran konteks) dan sejalan dengan tren industri menuju reasoning dengan perhitungan yang berpindah ke luar. Arsitektur paling umum adalah menyisipkan lapisan memori tetap di antara kepala perhatian biasa, yaitu model ruang status (SSM) dan varian perhatian linier (disebut secara kolektif SSM). SSM menawarkan skala yang secara fundamental lebih baik dalam skenario konteks panjang.

Gambar: Perbandingan skala SSM dan perhatian konvensional

Tujuannya adalah meningkatkan jumlah langkah koheren yang bisa dilakukan agen dari sekitar 20 langkah menjadi sekitar 20.000 langkah, tanpa kehilangan skill dan pengetahuan luas yang disediakan Transformer. Jika berhasil, ini akan menjadi terobosan besar untuk agen yang berjalan dalam waktu lama. Bahkan, pendekatan ini bisa dilihat sebagai bentuk pembelajaran berkelanjutan: meskipun bobot tidak diperbarui, ada lapisan memori eksternal yang hampir tidak perlu di-reset.

Jadi, metode non-parametrik ini nyata dan kuat. Setiap evaluasi pembelajaran berkelanjutan harus dimulai dari sini. Masalahnya bukan soal apakah sistem konteks saat ini berguna, karena memang berguna. Pertanyaannya adalah: apakah kita sudah mencapai batas, dan apakah metode baru bisa membawa kita lebih jauh.

Apa yang hilang dari konteks: “Kesalahan lemari arsip”

“AGI dan apa yang terjadi selama pretraining adalah, dalam arti tertentu, mereka overshoot… manusia bukan AGI. Ya, manusia punya dasar skill, tapi manusia kekurangan banyak pengetahuan. Kita bergantung pada pembelajaran berkelanjutan. Kalau saya buat remaja super pintar berusia 15 tahun, dia tidak tahu apa-apa. Seorang siswa yang sangat ingin belajar. Kamu bisa bilang, jadi programmer, jadi dokter. Deployment sendiri akan melibatkan proses belajar dan trial-and-error. Ini adalah proses, bukan langsung mengeluarkan produk jadi.” — Ilya Sutskever

Bayangkan sebuah sistem dengan ruang penyimpanan tak terbatas. Sebuah lemari arsip terbesar di dunia, setiap fakta diindeks dengan sempurna, bisa langsung diakses. Ia bisa mencari apa saja. Apakah ia belajar?

Tidak. Ia tidak pernah dipaksa melakukan kompresi.

Ini adalah inti argumen kami, yang mengutip pandangan yang diajukan Sutskever sebelumnya: LLM pada dasarnya adalah algoritma kompresi. Dalam proses pelatihan, mereka mengompresi internet menjadi parameter. Kompresi ini bersifat lossy, dan justru sifat lossy ini yang membuatnya kuat. Kompresi memaksa model mencari struktur, melakukan generalisasi, dan membangun representasi yang bisa dipindahkan antar konteks. Model yang hafal semua sampel pelatihan tidak sekuat model yang mengekstrak pola dasar. Kompresi bersifat lossy sendiri adalah bentuk pembelajaran.

Ironisnya, mekanisme yang membuat LLM sangat kuat selama pelatihan—mengompresi data mentah menjadi representasi yang ringkas dan dapat dipindahkan—justru yang kita hentikan setelah deployment. Kita berhenti melakukan kompresi saat peluncuran, dan menggantinya dengan memori eksternal. Tentu, sebagian besar kerangka kerja agen akan melakukan kompresi konteks secara kustom. Tapi pelajaran pahit (bitter lesson) seharusnya mengingatkan kita bahwa model seharusnya belajar melakukan kompresi ini sendiri, secara langsung dan skala besar.

Yu Sun memberi contoh ilustratif: matematika. Lihat teorema Fermat. Lebih dari 350 tahun, tidak ada matematikawan yang bisa membuktikannya, bukan karena kekurangan literatur yang benar, tetapi karena solusi yang sangat inovatif. Jarak konsep antara pengetahuan matematika yang ada dan jawaban akhirnya terlalu besar. Andrew Wiles pada tahun 1990-an akhirnya membuktikan teorema ini setelah hampir tujuh tahun bekerja secara terisolasi, dan harus menciptakan teknik baru untuk mencapai jawaban. Pembuktiannya bergantung pada jembatan antara dua cabang matematika berbeda: kurva elips dan bentuk modular. Meskipun Ken Ribet sebelumnya sudah membuktikan bahwa jika hubungan ini bisa dibangun, maka teorema Fermat bisa otomatis terbukti, sebelum Wiles, tidak ada yang punya alat teori untuk membangun jembatan itu. Pembuktian Perelman terhadap Conjecture Poincaré juga bisa dianalogikan.

Intinya: apakah contoh-contoh ini membuktikan bahwa LLM kekurangan sesuatu, suatu prior yang memungkinkan mereka melakukan pemikiran kreatif dan pembaruan? Atau justru membuktikan sebaliknya—bahwa semua pengetahuan manusia hanyalah data yang bisa dilatih dan disusun ulang, dan Wiles serta Perelman hanyalah contoh bahwa LLM juga bisa melakukan hal yang sama dalam skala lebih besar?

Ini adalah pertanyaan empiris, jawaban pasti belum ada. Tapi kita tahu bahwa banyak kategori masalah di mana pembelajaran konteks saat ini gagal, dan pembelajaran parameter bisa berguna. Misalnya:

Gambar: Kategori masalah di mana pembelajaran konteks gagal dan parameter belajar mungkin lebih unggul

Lebih penting lagi, pembelajaran konteks hanya bisa mengolah hal-hal yang bisa diungkapkan dengan bahasa, sementara bobot bisa mengkodekan konsep yang tidak bisa disampaikan lewat kata-kata. Beberapa pola sangat tinggi dimensi, sangat implisit, dan sangat dalam strukturnya sehingga tidak muat di konteks. Misalnya, tekstur visual dalam scan medis yang membedakan antara artefak jinak dan tumor, atau fluktuasi mikrofon yang menentukan ritme unik seorang pembicara—pola-pola ini sulit dipecah menjadi kata-kata yang tepat. Bahasa hanya mampu mendekati mereka. Bahkan prompt yang panjang pun tidak cukup untuk menyampaikan semua ini; pengetahuan semacam ini hanya bisa hidup di bobot. Mereka berada di ruang potensi representasi belajar, bukan dalam teks. Pengetahuan ini hidup di ruang tersembunyi dari representasi belajar, bukan dalam kata-kata. Apapun panjang jendela konteksnya, selalu ada pengetahuan yang tidak bisa dideskripsikan secara tekstual, dan hanya bisa diemban oleh parameter.

Ini mungkin menjelaskan mengapa fitur “robot mengingatmu” secara eksplisit (seperti memori ChatGPT) seringkali membuat pengguna merasa tidak nyaman daripada terkejut. Yang benar-benar diinginkan pengguna bukan “kenangan”, melainkan “kemampuan”. Model yang sudah menginternalisasi pola perilaku kamu bisa melakukan generalisasi ke skenario baru; model yang hanya mengingat riwayatmu tidak bisa. “Ini adalah isi balasan terakhirmu” (reproduksi kata demi kata) dan “Saya sudah cukup memahami cara berpikirmu, dan bisa memperkirakan apa yang kamu butuhkan” adalah jarak antara pencarian dan pembelajaran.

Pengantar pembelajaran berkelanjutan

Pembelajaran berkelanjutan memiliki banyak jalur. Batasnya bukan soal “ada fungsi memori” atau tidak, tetapi: di mana proses kompresi terjadi? Jalur ini tersebar di spektrum, dari tanpa kompresi (hanya pencarian, bobot tetap), ke kompresi internal penuh (pembelajaran tingkat bobot, model menjadi lebih pintar), dan di tengah ada zona penting (modul).

Gambar: Tiga jalur pembelajaran berkelanjutan—konteks, modul, bobot

Konteks

Di ujung konteks, tim membangun pipeline pencarian yang lebih cerdas, kerangka kerja agen eksternal, dan pengaturan prompt yang lebih baik. Ini adalah kategori paling matang: infrastruktur sudah teruji, jalur deployment jelas. Batasnya adalah kedalaman: panjang jendela konteks.

Satu arah baru yang menarik: arsitektur multi-agen sebagai strategi skala konteks itu sendiri. Jika satu model dibatasi pada jendela 128K token, sekelompok agen yang terkoordinasi—masing-masing memegang konteks sendiri, fokus pada bagian masalah tertentu, dan saling berkomunikasi hasil—dapat secara keseluruhan mendekati memori kerja tak terbatas. Setiap agen melakukan pembelajaran konteks dalam jendelanya sendiri; sistem melakukan agregasi. Proyek autoresearch Karpathy dan contoh pembuatan browser web oleh Cursor adalah contoh awal. Ini adalah metode non-parametrik murni (tanpa mengubah bobot), tetapi sangat meningkatkan batas kemampuan sistem konteks.

Modul

Di ruang modul, tim membangun modul pengetahuan yang dapat dipasang (cache KV yang terkompresi, lapisan adaptor, penyimpanan memori eksternal), memungkinkan model umum melakukan spesialisasi tanpa retrain. Model 8B yang dilengkapi modul yang tepat bisa menyamai performa model 109B di tugas tertentu, dengan konsumsi memori yang jauh lebih kecil. Keunggulannya adalah kompatibilitas dengan infrastruktur Transformer yang ada.

Bobot

Di ujung pembaruan bobot, peneliti mengejar pembelajaran parameter sejati: hanya memperbarui bagian tertentu dari bobot secara spars, mengoptimalkan model melalui feedback loop reinforcement learning, dan melakukan test-time training dengan mengompresi konteks ke dalam bobot saat inferensi. Ini adalah metode paling dalam dan paling sulit untuk di-deploy, tetapi memungkinkan model menginternalisasi pengetahuan dan skill baru secara penuh.

Berbagai mekanisme pembaruan bobot sedang dieksplorasi, seperti:

Gambar: Ikhtisar jalur penelitian pembelajaran tingkat bobot

Regularisasi dan metode ruang bobot: EWC (Kirkpatrick et al., 2017) yang menghukum perubahan parameter berdasarkan pentingnya untuk tugas sebelumnya; interpolasi bobot (Kozal et al., 2024) yang menggabungkan bobot baru dan lama di ruang parameter, meskipun keduanya rapuh secara skala besar.
Pelatihan saat inference: dimulai oleh Sun et al. (2020), berkembang menjadi primitive arsitektur seperti TTT layer, TTT-E2E, TTT-Discover—menggunakan gradient descent di data uji untuk mengompresi informasi baru ke dalam bobot saat itu juga.
Meta-learning: melatih model agar tahu “cara belajar”—dari inisialisasi parameter few-shot (Finn et al., 2017) hingga Nested Learning (Behrouz et al., 2025), yang mengatur model sebagai hierarki modul yang beradaptasi cepat dan memperbarui secara lambat, terinspirasi dari konsolidasi memori biologis.
Distilasi: membuat model pelajar menyesuaikan dengan checkpoint guru yang beku, agar pengetahuan dari tugas sebelumnya tetap terjaga. LoRD (Liu et al., 2025) melakukan distilasi efisien dengan memotong model dan mereplay buffer, sehingga bisa berjalan terus-menerus. Self-distillation (SDFT, Shenfeld et al., 2026) membalikkan proses, menggunakan output model sendiri dalam kondisi ahli sebagai sinyal pelatihan, menghindari forgetting yang destruktif dari fine-tuning sekuensial. Recursive self-improvement seperti STaR (Zelikman et al., 2022) dan AlphaEvolve (DeepMind, 2025) juga mengikuti ide ini. “Era pengalaman” dari Silver dan Sutton (2025) mendefinisikan agen sebagai aliran pengalaman yang tak pernah berhenti.

Semua jalur ini mulai menyatu. TTT-Discover menggabungkan test-time training dan eksplorasi berbasis RL. HOPE mengintegrasikan siklus belajar cepat dan lambat dalam satu arsitektur. SDFT mengubah distilasi menjadi operasi self-improvement dasar. Batas antar jalur semakin kabur. Sistem pembelajaran berkelanjutan generasi berikutnya kemungkinan akan menggabungkan berbagai strategi: regulasi untuk stabilitas, meta-learning untuk percepatan, dan self-improvement untuk efek majemuk. Banyak startup yang berinvestasi di berbagai lapisan teknologi ini.

Peta ekosistem startup pembelajaran berkelanjutan

Di ujung spektrum non-parametrik, perusahaan-perusahaan seperti Letta, mem0, Subconscious membangun lapisan orkestrasi dan kerangka kerja yang mengelola isi jendela konteks. Infrastruktur eksternal dan RAG (seperti Pinecone, xmemory) menyediakan tulang punggung pencarian. Data tersedia, tantangannya adalah menempatkan potongan yang tepat di depan model pada waktu yang tepat. Dengan memperluas jendela konteks, ruang desain perusahaan ini juga berkembang, dan banyak startup baru muncul untuk mengelola strategi konteks yang semakin kompleks.

Di ujung parameter yang lebih awal dan beragam, perusahaan mencoba semacam “kompresi pasca-deployment” agar model menginternalisasi pengetahuan baru. Jalur ini secara umum terbagi menjadi beberapa taruhan berbeda tentang bagaimana model harus “belajar” setelah dirilis.

Kompresi parsial: belajar tanpa retrain. Beberapa tim membangun modul pengetahuan yang dapat dipasang (cache KV terkompresi, lapisan adaptor, memori eksternal), memungkinkan model umum melakukan spesialisasi tanpa mengubah bobot utama. Argumennya: kamu bisa mendapatkan kompresi yang bermakna (bukan sekadar pencarian), dan menjaga trade-off stabilitas-keluwesan dalam batas yang manageable, karena proses belajar dilakukan secara terisolasi, bukan tersebar di seluruh ruang parameter. Model 8B dengan modul yang tepat bisa menyamai performa model jauh lebih besar di tugas tertentu. Keunggulannya adalah komposabilitas: modul bisa dipasang dan diganti dengan mudah, dan biaya eksperimen jauh lebih rendah daripada retrain.

Pembelajaran dari feedback dan siklus: belajar dari sinyal yang sudah ada. Tim lain berpendapat bahwa sinyal belajar paling kaya setelah deployment sudah ada di dalam siklus deployment itu sendiri—umpan balik pengguna, keberhasilan atau kegagalan tugas, reward dari hasil dunia nyata. Intinya, model harus memperlakukan setiap interaksi sebagai potensi sinyal pelatihan, bukan hanya permintaan inferensi. Ini sangat mirip cara manusia belajar di pekerjaan: bekerja, mendapatkan feedback, dan menginternalisasi metode yang efektif. Tantangannya adalah mengubah feedback yang jarang, berisik, dan kadang adversarial menjadi pembaruan bobot yang stabil, tanpa lupa secara destruktif. Tapi model yang benar-benar belajar dari deployment akan menghasilkan efek majemuk yang tidak bisa dicapai oleh sistem konteks.

Berbasis data: belajar dari sinyal yang benar. Taruhan lain yang terkait adalah bahwa bottleneck bukan algoritma belajar, tetapi data dan sistem pendukungnya. Tim ini fokus pada penyaringan, pembuatan, atau sintesis data yang tepat untuk mendorong pembaruan berkelanjutan: asumsinya, model yang memiliki sinyal belajar berkualitas tinggi dan terstruktur baik hanya membutuhkan sedikit langkah gradien untuk melakukan peningkatan yang berarti. Ini berhubungan erat dengan perusahaan feedback loop, tetapi menekankan masalah hulu: apakah model bisa belajar, dan apa yang harus dipelajari, serta sejauh mana.

Arsitektur baru: belajar kemampuan dari desain dasar. Taruhan paling radikal adalah bahwa arsitektur Transformer sendiri adalah hambatan, dan pembelajaran berkelanjutan membutuhkan arsitektur yang berbeda secara fundamental—yang memiliki dinamika waktu kontinu dan mekanisme memori bawaan. Argumennya adalah bahwa jika ingin sistem yang mampu belajar berkelanjutan, harus menyematkan mekanisme belajar ke dalam arsitektur dasar.

Gambar: Peta startup pembelajaran berkelanjutan

Semua laboratorium utama aktif di jalur ini. Ada yang mengeksplor manajemen konteks dan reasoning chain yang lebih baik, ada yang menguji modul memori eksternal atau pipeline komputasi saat tidur, dan beberapa perusahaan tersembunyi sedang mencari arsitektur baru. Bidang ini masih sangat awal, belum ada metode yang dominan, dan mengingat beragamnya use case, seharusnya tidak ada satu pemenang tunggal.

Mengapa pembaruan bobot naif bisa gagal

Dalam lingkungan produksi, memperbarui bobot model akan menimbulkan serangkaian kegagalan yang saat ini belum terselesaikan secara skala besar.

Gambar: Pola kegagalan pembaruan bobot naif

Masalah engineering sudah terdokumentasi dengan baik. Forgetfulness secara destruktif berarti model yang cukup sensitif terhadap data baru untuk belajar akan menghancurkan representasi yang sudah ada—konflik stabilitas dan plasticity. Decoupling waktu berarti aturan tetap dan status yang berubah-ubah dikompresi dalam bobot yang sama, sehingga memperbarui satu akan merusak yang lain. Gagalnya integrasi logika terjadi karena pembaruan fakta tidak menyebar ke inferensinya: perubahan terbatas pada level token, bukan konsep semantik. Unlearning tetap tidak mungkin: tidak ada operasi pengurangan yang diferensial, sehingga penyingkiran pengetahuan palsu atau beracun tidak bisa dilakukan secara presisi.

Ada juga masalah kedua yang kurang diperhatikan. Pemisahan pelatihan dan deployment saat ini bukan hanya soal engineering, tetapi juga batas keamanan, auditabilitas, dan governance. Membuka batas ini akan menimbulkan banyak masalah sekaligus. Alignment keamanan bisa menurun secara tak terduga: bahkan fine-tuning pada data yang aman bisa menyebabkan perilaku yang tidak diinginkan secara luas. Pembaruan berkelanjutan membuka celah serangan poisoning data—versi injeksi prompt yang lambat dan tahan lama, tetapi tersimpan di bobot. Auditabilitas pun runtuh, karena model yang terus diperbarui adalah target bergerak, sulit untuk version control, regression test, atau sertifikasi sekali jalan. Ketika interaksi pengguna tersimpan dalam parameter, risiko privasi meningkat, dan informasi sensitif bisa tertanam dalam representasi, lebih sulit difilter daripada informasi dalam konteks pencarian.

Ini adalah masalah terbuka, bukan ketidakmungkinan mutlak. Mengatasinya sama pentingnya dengan mengatasi tantangan arsitektur inti dalam penelitian pembelajaran berkelanjutan.

Dari “Memento” ke memori sejati

Tragedi Leonard dalam “Memento” bukan karena dia tidak mampu beroperasi—dalam setiap situasi dia cukup cerdas, bahkan luar biasa. Tragedinya adalah dia tidak pernah bisa mendapatkan efek majemuk. Setiap pengalaman berhenti di luar dirinya—foto polaroid, tato, catatan tulisan tangan orang lain. Dia bisa melakukan pencarian, tetapi tidak bisa mengompresi pengetahuan baru.

Ketika Leonard berjalan di labirin yang dibangunnya sendiri, batas antara kenyataan dan kepercayaan mulai kabur. Penyakitnya bukan hanya menghilangkan memorinya; itu memaksanya untuk terus membangun makna, menjadikannya detektif dalam ceritanya sendiri sekaligus narator yang tidak dapat dipercaya.

Hari ini, AI beroperasi di bawah batas yang sama. Kita membangun sistem pencarian yang sangat kuat: jendela konteks lebih panjang, kerangka kerja eksternal yang lebih cerdas, agen multi-agen yang terkoordinasi—dan semuanya berfungsi. Tapi pencarian tidak sama dengan pembelajaran. Sistem yang bisa mencari fakta apa saja tidak dipaksa untuk mencari struktur. Ia tidak dipaksa untuk melakukan generalisasi. Mekanisme kompresi yang sangat kuat selama pelatihan—mengubah data mentah menjadi representasi yang dapat dipindahkan—justru yang kita matikan saat deployment. Kita berhenti melakukan kompresi saat peluncuran, dan menggantinya dengan memori eksternal. Tentu, sebagian besar kerangka kerja agen akan melakukan kompresi konteks secara kustom. Tapi pelajaran pahit (bitter lesson) seharusnya mengingatkan kita bahwa model seharusnya belajar melakukan kompresi ini sendiri, secara langsung dan skala besar.

Jalan ke depan kemungkinan bukan satu terobosan tunggal, melainkan sistem berlapis. Pembelajaran konteks tetap akan menjadi garis pertahanan utama: asli, terbukti, dan terus diperbaiki. Mekanisme modul bisa mengatasi kebutuhan personalisasi dan spesialisasi domain. Tapi untuk masalah yang benar-benar sulit—penemuan, adaptasi adversarial, pengetahuan implisit yang tidak bisa diungkapkan secara tekstual—kita mungkin perlu membuat model terus-menerus mengompresi pengalaman ke dalam parameter setelah pelatihan. Ini membutuhkan kemajuan dalam arsitektur sparse, meta-learning, dan siklus self-improvement. Mungkin juga kita perlu mendefinisikan ulang arti “model”: bukan sekadar kumpulan bobot tetap, tetapi sistem yang berevolusi, menyimpan memorinya, algoritma pembaruannya, dan kemampuan abstraksi dari pengalaman sendiri.

Lemari arsip semakin besar. Tapi sebesar apapun, itu tetap lemari arsip. Terobosan sebenarnya adalah membuat model mampu melakukan pelatihan saat deployment—mengompresi, mengabstraksi, dan belajar—seperti yang dilakukan saat pelatihan. Kita berada di ambang transisi dari model yang lupa menjadi model yang memiliki secercah pengalaman. Jika tidak, kita akan terjebak dalam “Memento” kita sendiri.

a16z: Penerapan model besar menyebabkan lupa, apakah "Pembelajaran Berkelanjutan" bisa memutus siklus mati ini?

Topik Trending

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Sematkan