Agen AI Perusahaan Membutuhkan Uji Ketahanan, Bukan Pemasaran Penjualan

SleepTrader

2026-03-28 02:24:51

Abhishek Saxena, Kepala Strategi dan Pertumbuhan, Sentient.

FinTech bergerak cepat. Berita ada di mana-mana, kejelasan tidak ada.

FinTech Weekly menyajikan cerita dan peristiwa kunci di satu tempat.

Klik Di Sini untuk Berlangganan Buletin FinTech Weekly

Dibaca oleh eksekutif di JP Morgan, Coinbase, BlackRock, Klarna, dan lainnya.

AI perusahaan memiliki masalah kepercayaan yang tidak dapat diselesaikan oleh pemasaran. Perusahaan mulai menerapkan agen otonom ke dalam lingkungan produksi di mana satu keputusan buruk dapat memicu pelanggaran kepatuhan, pembayaran gagal, kesalahan perdagangan, kerugian finansial, atau krisis reputasi. Namun, standar industri untuk mengevaluasi apakah agen siap untuk produksi masih, secara efektif, sebuah demo yang terlihat mengesankan di atas panggung.

Peluncuran NemoClaw dari Nvidia minggu ini menandakan betapa cepatnya agen otonom bergerak dari eksperimen ke alur kerja perusahaan. Platform ini menambahkan kontrol keamanan dan privasi yang penting, termasuk pengendalian sandbox dan kebijakan. Namun, penerapan yang aman tidak sama dengan kesiapan produksi. Pertanyaan yang lebih sulit adalah apakah sistem ini telah diuji untuk beroperasi secara andal di bawah ketidakpastian, kasus pinggiran, dan tekanan regulasi.

Membangun agen yang dapat menyelesaikan tugas dalam lingkungan yang terkontrol relatif mudah. Membangun agen yang dapat menangani ketidakpastian, pulih dari input yang tidak terduga, mempertahankan konsistensi di ribuan interaksi bersamaan, dan melakukan semua ini tanpa melanggar batasan regulasi adalah masalah rekayasa yang sangat berbeda.

Perbedaan inilah yang menyebabkan banyak penerapan perusahaan mengalami masalah. Jarak antara kinerja demo dan keandalan produksi lebih lebar daripada yang diharapkan sebagian besar tim.

Agen yang menangani pertanyaan dukungan pelanggan dengan sempurna dalam pengujian mungkin membayangkan kebijakan pengembalian dana yang tidak ada ketika dihadapkan dengan kasus pinggiran yang belum pernah dilihatnya. Agen yang mengelola alur kerja keuangan mungkin berkinerja sempurna pada data historis tetapi membuat keputusan bencana ketika kondisi pasar berubah di luar distribusi pelatihannya. Agen logistik yang mengoordinasikan rantai pasokan mungkin berhasil dalam simulasi tetapi kesulitan ketika keterlambatan dunia nyata dan sinyal yang bertentangan mulai bertumpuk.

Siapa pun yang telah menjalankan agen melalui lingkungan pengujian yang bersifat adversarial akan segera mengenali pola-pola ini. Sistem bekerja—hingga mereka menghadapi jenis ketidakpastian dan tekanan yang mendefinisikan operasi nyata.

Inilah sebabnya mengapa fokus industri saat ini pada membangun lebih banyak kerangka agen melewatkan bagian penting dari teka-teki. Titik bottleneck yang sebenarnya bukan seberapa cepat perusahaan dapat membuat agen. Ini adalah seberapa percaya diri mereka dapat mengevaluasi agen tersebut sebelum agen-agen itu diberikan tanggung jawab nyata.

Apa yang dibutuhkan AI perusahaan adalah infrastruktur pengujian stres yang ketat dan sistematis yang dirancang khusus untuk sistem otonom. Itu berarti secara sengaja memperkenalkan jenis input yang merusak agen dalam produksi. Itu berarti mengevaluasi bagaimana agen berperilaku di bawah ketidakpastian, informasi yang bertentangan, dan kasus pinggiran yang tidak muncul dalam dataset benchmark yang bersih. Dan itu berarti evaluasi terus-menerus, bukan satu kali uji sebelum peluncuran.

Pendekatan sumber terbuka NemoClaw adalah langkah ke arah yang benar karena memberikan pengembang visibilitas tentang bagaimana agen beroperasi. Anda tidak dapat menguji kotak hitam dengan benar. Namun, visibilitas saja tidak cukup. Infrastruktur pengujian itu sendiri perlu berkembang seiring dengan sistem yang dievaluasinya.

Pengembangan agen harus mengasumsikan bahwa mode kegagalan adalah hal yang tidak terhindarkan dan harus diungkapkan lebih awal. Tujuannya bukan untuk membuktikan bahwa agen berfungsi sekali, tetapi untuk memahami bagaimana ia berperilaku ketika kondisi menjadi tidak dapat diprediksi. Pola pikir itu mengubah cara agen dievaluasi, bagaimana penghalang dirancang, dan bagaimana sistem dipersiapkan untuk diterapkan dalam lingkungan yang berisiko tinggi.

Taruhannya hanya akan meningkat saat agen bergerak dari tugas terisolasi ke alur kerja end-to-end. Perusahaan sudah menjelajahi agen yang merundingkan kontrak, mengeksekusi transaksi keuangan, mengoordinasikan rantai pasokan, dan mengelola proses operasional yang kompleks. Ketika sistem ini beroperasi di seluruh titik keputusan yang berbeda, dampak dari satu kesalahan dapat dengan cepat berlanjut.

Agen dukungan pelanggan yang gagal kehilangan tiket. Agen keuangan yang gagal dapat kehilangan modal. Agen operasional yang gagal dapat menunda seluruh lini produksi.
Perusahaan yang akhirnya berhasil dengan AI perusahaan bukanlah yang pertama menerapkan agen. Mereka adalah yang menerapkan agen yang benar-benar dapat mereka percayai.

Kepercayaan bukanlah fitur yang ditambahkan di akhir pengembangan. Itu adalah disiplin rekayasa—satu yang dimulai dengan bagaimana sistem diuji, bagaimana perilakunya dievaluasi di bawah tekanan, dan bagaimana mode kegagalannya dipahami jauh sebelum mereka menyentuh beban kerja produksi.

Nvidia memberikan perusahaan alat yang kuat untuk membangun agen otonom. Pertanyaan yang lebih sulit—dan yang akan menentukan apakah sistem ini berhasil di dunia nyata—adalah apakah organisasi berinvestasi secara setara dalam infrastruktur yang diperlukan untuk membuktikan bahwa agen-agen tersebut siap.

Tentang penulis

Abhishek Saxena adalah Kepala Strategi dan Pertumbuhan di Sentient, sebuah platform AI sumber terbuka yang membangun infrastruktur untuk agen otonom yang dapat dipercaya. Sebelumnya, Abhishek menjabat di Polygon Technology, Apple, dan InMobi, dan memiliki MBA dari Harvard Business School.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.