Belakangan ini, seluruh dunia teknologi dan investasi sedang memusatkan perhatian pada satu hal yang sama: bagaimana aplikasi AI sedang “menghancurkan” SaaS tradisional. Sejak @AnthropicAI memperlihatkan Claude Cowork yang mampu dengan mudah membantu menulis email, membuat PPT, menganalisis tabel Excel, sebuah kepanikan tentang “software sudah mati” mulai menyebar. Memang sangat menakutkan, tetapi jika pandanganmu hanya berhenti di situ, kamu mungkin melewatkan gempa besar yang sebenarnya sedang terjadi.
Ini seperti kita semua menengadah melihat perang drone di langit, tetapi tidak ada yang menyadari bahwa seluruh benua di bawah kaki kita sedang bergerak perlahan. Badai sejati tersembunyi di bawah permukaan, di sudut yang sebagian besar orang tidak lihat: fondasi kekuatan komputasi yang menopang seluruh dunia AI, sedang mengalami “revolusi diam-diam”.
Dan revolusi ini mungkin akan membuat para penjual alat AI: Nvidia @nvidia, yang mengadakan pesta besar dengan cermat, akan berakhir lebih cepat dari yang semua orang bayangkan.
Dua jalur revolusi yang sedang bersilangan
Revolusi ini bukan satu kejadian tunggal, melainkan gabungan dari dua jalur teknologi yang tampaknya independen. Mereka seperti dua pasukan yang mengepung, membentuk serangan dari kedua sisi terhadap dominasi GPU Nvidia.
Jalur pertama adalah revolusi penyederhanaan algoritma.
Pernahkah kamu berpikir, saat otak super sedang memikirkan sesuatu, apakah benar-benar perlu mengaktifkan semua sel otak? Jelas tidak. DeepSeek menyadari hal ini dan menciptakan arsitektur MoE (Model Ahli Campuran).
Kamu bisa membayangkannya seperti sebuah perusahaan yang mempekerjakan ratusan ahli dari berbagai bidang. Tapi setiap kali mengadakan rapat untuk menyelesaikan masalah, kamu hanya perlu memanggil dua atau tiga orang yang paling relevan, bukan semua orang untuk brainstorming. Inilah keunggulan MoE: ia memungkinkan sebuah model besar hanya mengaktifkan sebagian kecil “ahli” saat melakukan perhitungan, sehingga sangat menghemat daya komputasi.
Hasilnya apa? Model DeepSeek-V2, secara nominal memiliki 236 miliar “ahli” (parameter), tetapi setiap kali bekerja, hanya mengaktifkan sekitar 21 miliar, kurang dari 9% dari totalnya. Dan performanya bisa menyamai GPT-4 yang membutuhkan 100% daya penuh. Apa artinya ini? Kemampuan AI dan konsumsi daya komputasi tidak lagi saling bergantung!
Dulu, kita semua menganggap semakin kuat AI, semakin banyak kartu yang dibakar. Sekarang, DeepSeek menunjukkan bahwa dengan algoritma cerdas, kita bisa mencapai hasil yang sama dengan biaya sepuluh kali lebih murah. Ini sama saja menantang kebutuhan mendasar GPU Nvidia secara besar-besaran.
Jalur kedua adalah revolusi “pergantian jalur” perangkat keras.
Kerja AI terbagi menjadi dua tahap: pelatihan dan inferensi. Pelatihan seperti bersekolah, membutuhkan membaca ribuan buku, dan GPU yang mampu melakukan paralel komputasi besar memang sangat cocok di sini. Tapi inferensi seperti yang kita lakukan sehari-hari saat menggunakan AI, lebih mengutamakan kecepatan respons.
GPU memiliki kekurangan alami saat inferensi: memorinya (HBM) adalah eksternal, sehingga data yang masuk dan keluar memiliki latensi. Ini seperti seorang koki yang bahan makanannya disimpan di kulkas di kamar sebelah, setiap kali memasak harus berlari ke sana, meskipun cepat tetap tidak cukup cepat. Perusahaan seperti Cerebras dan Groq justru memulai dari nol, merancang chip inferensi khusus yang menyolder memori (SRAM) langsung ke chip, sehingga bahan makanannya selalu di tangan, memungkinkan akses “tanpa latensi”.
Pasar sudah membuktikan dengan uang nyata. OpenAI mengeluh tentang performa inferensi GPU Nvidia yang tidak memuaskan, tetapi kemudian langsung menandatangani kontrak senilai 10 miliar dolar dengan Cerebras untuk menyewa layanan inferensi mereka. Nvidia sendiri juga panik, lalu mengakuisisi Groq seharga 20 miliar dolar, demi tidak tertinggal di jalur baru ini.
Ketika kedua jalur ini bersilangan: biaya meluncur turun drastis
Sekarang kita satukan kedua hal ini: model DeepSeek yang “lebih ramping” dengan algoritma, berjalan di atas chip Cerebras yang “tanpa latensi”.
Apa yang akan terjadi?
Sebuah ledakan biaya.
Pertama, model yang lebih ramping ini sangat kecil, sehingga bisa dimuat sekaligus ke dalam memori internal chip. Kedua, tanpa hambatan memori eksternal, kecepatan respons AI akan sangat cepat. Hasil akhirnya: biaya pelatihan dengan arsitektur MoE turun 90%, dan biaya inferensi dengan perangkat keras khusus dan perhitungan jarang (sparse) turun satu tingkat lagi. Hitung-hitungannya, total biaya memiliki dan menjalankan AI kelas dunia mungkin hanya 10-15% dari solusi GPU tradisional.
Ini bukan sekadar perbaikan, ini adalah perubahan paradigma.
Kursi Nvidia, yang selama ini kokoh, sedang perlahan diambil dari bawah karpetnya
Sekarang kamu harus mengerti mengapa ini jauh lebih berbahaya daripada “Kepanikan Cowork”.
Nilai pasar Nvidia yang ratusan triliun hari ini, dibangun di atas cerita sederhana: AI adalah masa depan, dan masa depan AI harus bergantung pada GPU saya. Tapi sekarang, fondasi cerita ini mulai goyah.
Di pasar pelatihan, meskipun Nvidia tetap mendominasi, jika pelanggan bisa menyelesaikan pekerjaan dengan sepuluh kali lebih sedikit kartu, maka ukuran pasar secara keseluruhan bisa menyusut secara signifikan.
Di pasar inferensi, yang jauh lebih besar sepuluh kali lipat dari pasar pelatihan, Nvidia tidak lagi memiliki keunggulan mutlak, bahkan menghadapi serangan dari Google, Cerebras, dan berbagai perusahaan lain. Bahkan pelanggan utamanya, OpenAI, mulai berbalik arah.
Begitu Wall Street menyadari bahwa “alat” Nvidia tidak lagi menjadi satu-satunya pilihan, apalagi yang terbaik, dan harapan akan “monopoli permanen” mulai memudar, apa yang akan terjadi pada valuasi mereka? Saya yakin semua orang sudah tahu jawabannya.
Jadi, dalam enam bulan ke depan, kemungkinan besar black swan terbesar bukanlah aplikasi AI yang mengalahkan satu sama lain, melainkan berita teknologi yang tampaknya sepele: misalnya makalah baru tentang efisiensi algoritma MoE, atau laporan yang menunjukkan peningkatan pangsa pasar chip inferensi khusus, yang secara diam-diam menandai dimulainya babak baru dalam perang kekuatan komputasi.
Ketika “penjual alat” tidak lagi menjadi satu-satunya pilihan, masa keemasan mereka mungkin juga akan berakhir.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Gempanya berikutnya dari AI: Mengapa bahaya sebenarnya bukanlah pembunuh SaaS, tetapi revolusi daya komputasi?
Ditulis oleh: Bruce
Belakangan ini, seluruh dunia teknologi dan investasi sedang memusatkan perhatian pada satu hal yang sama: bagaimana aplikasi AI sedang “menghancurkan” SaaS tradisional. Sejak @AnthropicAI memperlihatkan Claude Cowork yang mampu dengan mudah membantu menulis email, membuat PPT, menganalisis tabel Excel, sebuah kepanikan tentang “software sudah mati” mulai menyebar. Memang sangat menakutkan, tetapi jika pandanganmu hanya berhenti di situ, kamu mungkin melewatkan gempa besar yang sebenarnya sedang terjadi.
Ini seperti kita semua menengadah melihat perang drone di langit, tetapi tidak ada yang menyadari bahwa seluruh benua di bawah kaki kita sedang bergerak perlahan. Badai sejati tersembunyi di bawah permukaan, di sudut yang sebagian besar orang tidak lihat: fondasi kekuatan komputasi yang menopang seluruh dunia AI, sedang mengalami “revolusi diam-diam”.
Dan revolusi ini mungkin akan membuat para penjual alat AI: Nvidia @nvidia, yang mengadakan pesta besar dengan cermat, akan berakhir lebih cepat dari yang semua orang bayangkan.
Dua jalur revolusi yang sedang bersilangan
Revolusi ini bukan satu kejadian tunggal, melainkan gabungan dari dua jalur teknologi yang tampaknya independen. Mereka seperti dua pasukan yang mengepung, membentuk serangan dari kedua sisi terhadap dominasi GPU Nvidia.
Jalur pertama adalah revolusi penyederhanaan algoritma.
Pernahkah kamu berpikir, saat otak super sedang memikirkan sesuatu, apakah benar-benar perlu mengaktifkan semua sel otak? Jelas tidak. DeepSeek menyadari hal ini dan menciptakan arsitektur MoE (Model Ahli Campuran).
Kamu bisa membayangkannya seperti sebuah perusahaan yang mempekerjakan ratusan ahli dari berbagai bidang. Tapi setiap kali mengadakan rapat untuk menyelesaikan masalah, kamu hanya perlu memanggil dua atau tiga orang yang paling relevan, bukan semua orang untuk brainstorming. Inilah keunggulan MoE: ia memungkinkan sebuah model besar hanya mengaktifkan sebagian kecil “ahli” saat melakukan perhitungan, sehingga sangat menghemat daya komputasi.
Hasilnya apa? Model DeepSeek-V2, secara nominal memiliki 236 miliar “ahli” (parameter), tetapi setiap kali bekerja, hanya mengaktifkan sekitar 21 miliar, kurang dari 9% dari totalnya. Dan performanya bisa menyamai GPT-4 yang membutuhkan 100% daya penuh. Apa artinya ini? Kemampuan AI dan konsumsi daya komputasi tidak lagi saling bergantung!
Dulu, kita semua menganggap semakin kuat AI, semakin banyak kartu yang dibakar. Sekarang, DeepSeek menunjukkan bahwa dengan algoritma cerdas, kita bisa mencapai hasil yang sama dengan biaya sepuluh kali lebih murah. Ini sama saja menantang kebutuhan mendasar GPU Nvidia secara besar-besaran.
Jalur kedua adalah revolusi “pergantian jalur” perangkat keras.
Kerja AI terbagi menjadi dua tahap: pelatihan dan inferensi. Pelatihan seperti bersekolah, membutuhkan membaca ribuan buku, dan GPU yang mampu melakukan paralel komputasi besar memang sangat cocok di sini. Tapi inferensi seperti yang kita lakukan sehari-hari saat menggunakan AI, lebih mengutamakan kecepatan respons.
GPU memiliki kekurangan alami saat inferensi: memorinya (HBM) adalah eksternal, sehingga data yang masuk dan keluar memiliki latensi. Ini seperti seorang koki yang bahan makanannya disimpan di kulkas di kamar sebelah, setiap kali memasak harus berlari ke sana, meskipun cepat tetap tidak cukup cepat. Perusahaan seperti Cerebras dan Groq justru memulai dari nol, merancang chip inferensi khusus yang menyolder memori (SRAM) langsung ke chip, sehingga bahan makanannya selalu di tangan, memungkinkan akses “tanpa latensi”.
Pasar sudah membuktikan dengan uang nyata. OpenAI mengeluh tentang performa inferensi GPU Nvidia yang tidak memuaskan, tetapi kemudian langsung menandatangani kontrak senilai 10 miliar dolar dengan Cerebras untuk menyewa layanan inferensi mereka. Nvidia sendiri juga panik, lalu mengakuisisi Groq seharga 20 miliar dolar, demi tidak tertinggal di jalur baru ini.
Ketika kedua jalur ini bersilangan: biaya meluncur turun drastis
Sekarang kita satukan kedua hal ini: model DeepSeek yang “lebih ramping” dengan algoritma, berjalan di atas chip Cerebras yang “tanpa latensi”.
Apa yang akan terjadi?
Sebuah ledakan biaya.
Pertama, model yang lebih ramping ini sangat kecil, sehingga bisa dimuat sekaligus ke dalam memori internal chip. Kedua, tanpa hambatan memori eksternal, kecepatan respons AI akan sangat cepat. Hasil akhirnya: biaya pelatihan dengan arsitektur MoE turun 90%, dan biaya inferensi dengan perangkat keras khusus dan perhitungan jarang (sparse) turun satu tingkat lagi. Hitung-hitungannya, total biaya memiliki dan menjalankan AI kelas dunia mungkin hanya 10-15% dari solusi GPU tradisional.
Ini bukan sekadar perbaikan, ini adalah perubahan paradigma.
Kursi Nvidia, yang selama ini kokoh, sedang perlahan diambil dari bawah karpetnya
Sekarang kamu harus mengerti mengapa ini jauh lebih berbahaya daripada “Kepanikan Cowork”.
Nilai pasar Nvidia yang ratusan triliun hari ini, dibangun di atas cerita sederhana: AI adalah masa depan, dan masa depan AI harus bergantung pada GPU saya. Tapi sekarang, fondasi cerita ini mulai goyah.
Di pasar pelatihan, meskipun Nvidia tetap mendominasi, jika pelanggan bisa menyelesaikan pekerjaan dengan sepuluh kali lebih sedikit kartu, maka ukuran pasar secara keseluruhan bisa menyusut secara signifikan.
Di pasar inferensi, yang jauh lebih besar sepuluh kali lipat dari pasar pelatihan, Nvidia tidak lagi memiliki keunggulan mutlak, bahkan menghadapi serangan dari Google, Cerebras, dan berbagai perusahaan lain. Bahkan pelanggan utamanya, OpenAI, mulai berbalik arah.
Begitu Wall Street menyadari bahwa “alat” Nvidia tidak lagi menjadi satu-satunya pilihan, apalagi yang terbaik, dan harapan akan “monopoli permanen” mulai memudar, apa yang akan terjadi pada valuasi mereka? Saya yakin semua orang sudah tahu jawabannya.
Jadi, dalam enam bulan ke depan, kemungkinan besar black swan terbesar bukanlah aplikasi AI yang mengalahkan satu sama lain, melainkan berita teknologi yang tampaknya sepele: misalnya makalah baru tentang efisiensi algoritma MoE, atau laporan yang menunjukkan peningkatan pangsa pasar chip inferensi khusus, yang secara diam-diam menandai dimulainya babak baru dalam perang kekuatan komputasi.
Ketika “penjual alat” tidak lagi menjadi satu-satunya pilihan, masa keemasan mereka mungkin juga akan berakhir.