Sejak akhir 2022, institusi modal ventura terkemuka di Silicon Valley mulai mengalihkan perhatian mereka ke startup kecerdasan buatan, terutama di bidang seni AI generatif yang sedang panas. Stability AI dan Jasper secara berturut-turut menyelesaikan pendanaan lebih dari ratusan juta dolar AS, dengan valuasi keduanya menembus batas satu miliar dolar AS, dan berhasil masuk ke dalam daftar unicorn. Gelombang pendanaan ini didorong oleh logika mendalam dari AIGC (AI-Generated Content, konten yang dihasilkan kecerdasan buatan) sebagai transfer paradigma baru.
AIGC bukan hanya hasil dari kemajuan teknologi, tetapi juga revolusi dalam cara produksi konten. Dengan datangnya era Web3, kombinasi kecerdasan buatan, data terkait, dan jaringan semantik membentuk koneksi baru antara manusia dan jaringan, menyebabkan permintaan konsumsi konten mengalami lonjakan eksponensial. Metode produksi konten tradisional seperti PGC (konten profesional) dan UGC (konten pengguna) tidak lagi mampu memenuhi kebutuhan ekspansi ini, sehingga AIGC menjadi alat produktivitas baru di era Web3, menyediakan solusi untuk produksi massal konten metaverse.
Kebangkitan pasar AIGC: dari pinggiran menuju arus utama
Dari sudut pandang kemajuan teknologi dan aplikasi bisnis, alasan utama mengapa AIGC mampu menarik perhatian modal sebanyak ini dalam waktu singkat meliputi tiga faktor inti: pertama, terobosan dalam algoritma dasar dan perangkat keras; kedua, kematangan cepat dalam berbagai aplikasi vertikal; ketiga, sektor ini masih berada di tahap awal, meskipun perusahaan teknologi besar menguasai sebagian nilai, startup tetap memiliki peluang untuk melakukan terobosan.
Dalam hal aplikasi, AIGC sudah menunjukkan potensi multi-arah. Di bidang pembuatan teks, Jasper membantu pengguna membuat judul Instagram, skrip TikTok, copy iklan, dan isi email melalui fitur penulisan AI. Hingga saat laporan ini dirilis, Jasper telah memiliki lebih dari 70.000 pelanggan, termasuk raksasa industri seperti Airbnb dan IBM, dengan pendapatan tahun 2022 mencapai 40 juta dolar AS.
Dalam hal pembuatan gambar, kemajuan signifikan dicapai melalui teknologi model difusi. Rilis Stable Diffusion membuka era ledakan dalam bidang seni lukis AI. Platform media mulai mengadopsi AI secara skala besar untuk ilustrasi, tidak hanya menurunkan biaya produksi tetapi juga menghindari risiko hak cipta. OpenAI bahkan menjalin kemitraan mendalam dengan Shutterstock, salah satu perpustakaan gambar berhak cipta terbesar di dunia, dan gambar yang dihasilkan DALL-E telah menjadi pilihan baru dalam aplikasi komersial.
Video, audio, dan pembuatan kode juga menunjukkan prospek aplikasi yang luas. Model Phenaki dari Google mampu menghasilkan video panjang berdasarkan teks dalam dua menit; manusia virtual yang digabungkan dengan AIGC untuk suara dan ekspresi wajah dapat melakukan siaran otomatis dan peran karakter; GitHub Copilot telah menjadi asisten pengkodean bagi pengembang. Kematangan aplikasi ini menandai bahwa AIGC sedang bertransformasi dari alat pinggiran menjadi alat produktivitas arus utama.
Fondasi teknologi AIGC: Pemrosesan bahasa alami dan algoritma generatif
Memahami cara kerja AIGC memerlukan pemahaman mendalam terhadap dua pilar teknologi utama: Pemrosesan Bahasa Alami (NLP) dan algoritma generatif.
Evolusi Pemrosesan Bahasa Alami
NLP adalah fondasi interaksi manusia dan komputer melalui bahasa alami. Teknologi ini menggabungkan linguistik, ilmu komputer, dan matematika, memungkinkan komputer memahami bahasa alami, mengekstrak informasi, menerjemahkan otomatis, dan memproses konten. Sejak perkembangan NLP, tugas utamanya terbagi menjadi dua arah:
Pemahaman bahasa alami (NLU): bertujuan agar komputer mampu memahami bahasa seperti manusia. Berbeda dari komputer yang sebelumnya hanya mampu memproses data terstruktur, NLU memungkinkan komputer mengenali dan mengekstrak niat tersembunyi dalam bahasa, sehingga benar-benar memahami bahasa alami. Namun, karena keragaman, ambiguitas, dan ketergantungan konteks dari bahasa alami, performa komputer dalam pemahaman masih jauh di bawah manusia.
Generasi bahasa alami (NLG): mengubah data non-bahasa menjadi bentuk bahasa yang dapat dipahami manusia. Setelah melalui tiga tahap perkembangan—dari penggabungan data sederhana, berbasis template, hingga NLG tingkat tinggi—NLG kini mampu memahami niat, mempertimbangkan konteks, dan menyajikan hasil dalam bahasa yang alami dan lancar.
Terobosan utama NLP datang dari model Transformer yang dikembangkan Google pada 2017. Arsitektur ini menggunakan mekanisme perhatian diri (self-attention), yang mampu memberikan bobot berbeda pada bagian-bagian input berdasarkan pentingnya. Dibandingkan dengan jaringan syaraf berulang (RNN), Transformer dapat memproses seluruh input sekaligus, meningkatkan efisiensi komputasi secara paralel. Kemajuan teknologi ini melahirkan model besar seperti BERT dan GPT yang telah menjadi dasar bahasa yang kokoh untuk AIGC.
Dua aliran utama algoritma generatif
Dalam bidang algoritma generatif, dua pendekatan utama saat ini adalah Generative Adversarial Networks (GAN) dan model difusi.
GAN pertama kali diperkenalkan oleh Ian J. Goodfellow pada 2014, dengan desain yang melibatkan jaringan generator dan discriminator yang saling bersaing. Generator berusaha membuat data “palsu” untuk menipu discriminator, sementara discriminator berusaha mengenali data palsu tersebut. Dalam proses pelatihan yang bersifat adversarial ini, kedua jaringan berkembang secara bersamaan hingga mencapai keseimbangan—discriminator tidak lagi mampu membedakan data palsu. Pendekatan ini banyak digunakan dalam iklan, game, hiburan, untuk menciptakan karakter fiktif, memodifikasi wajah, dan konversi gaya.
Namun, GAN memiliki masalah ketidakstabilan pelatihan dan mode collapse. Generator dan discriminator harus disinkronkan secara hati-hati, tetapi dalam praktik sering terjadi discriminator konvergen sementara generator menyimpang. Kadang-kadang generator terjebak dalam mode yang hanya menghasilkan sampel yang sama, tidak mampu belajar lebih jauh.
Berbeda dengan GAN, model difusi menawarkan logika generatif yang lebih mendekati cara berpikir manusia dan menjadi kekuatan pendorong utama perkembangan pesat AIGC. Model ini bekerja dengan menambahkan noise Gaussian secara berurutan ke data pelatihan, kemudian belajar membalik proses ini untuk merekonstruksi data asli. Setelah pelatihan, model dapat menghasilkan data baru dengan menambahkan noise acak dan kemudian menghilangkan noise tersebut secara belajar.
Contohnya, DALL-E, setelah menerima deskripsi teks, pertama-tama menggunakan encoder teks (seperti model CLIP dari OpenAI) untuk memetakan teks ke ruang representasi; kemudian melalui model “prior” untuk memetakan teks ke encoding gambar yang menangkap makna semantik; terakhir, encoder gambar secara acak menghasilkan representasi visual, menyelesaikan proses penciptaan gambar. Proses ini mirip dengan imajinasi manusia—awal dari konsep dasar, lalu secara bertahap menambahkan detail dan lapisan makna.
Dibandingkan GAN, model difusi memiliki tiga keunggulan utama: kualitas gambar yang dihasilkan lebih tinggi, tidak memerlukan pelatihan adversarial sehingga lebih efisien, dan memiliki skalabilitas serta kemampuan komputasi paralel yang lebih baik. Karakteristik ini menjadikan model difusi sebagai representasi generasi gambar generasi berikutnya.
Jalur komersialisasi AIGC: dari asisten ke pencipta
Dari segi kematangan aplikasi, AIGC menunjukkan pola bisnis yang jelas di bidang teks, gambar, audio, game, dan kode. Terutama dalam tugas yang bersifat repetitif tinggi dan tidak memerlukan tingkat akurasi ekstrem, aplikasi AIGC sudah cukup matang dan aktif dieksplorasi untuk monetisasi. Penyedia layanan ini umumnya mengadopsi model SaaS berlangganan.
Model SaaS untuk penciptaan teks
Jasper adalah contoh utama di bidang pembuatan teks. Platform ini yang didirikan kurang dari dua tahun memungkinkan individu dan tim menciptakan konten komersial menggunakan AI. Pengguna memasukkan deskripsi dan kebutuhan tentang artikel yang diinginkan, sistem secara otomatis mengumpulkan data dan menulis sesuai instruksi. Sebagai contoh, saat penulis memasukkan “Tulis artikel tentang AIGC, termasuk definisi, sejarah, aplikasi, kondisi saat ini, dan tren masa depan,” Jasper dalam hitungan detik menghasilkan artikel lengkap yang logis, terstruktur, dan berisi contoh. Platform ini menyediakan ratusan template yang dapat dipilih sesuai kebutuhan.
Dalam hal performa bisnis, Jasper menunjukkan hasil yang mengesankan. Dalam putaran pendanaan terakhir, mereka memperoleh dana sebesar 125 juta dolar AS, dengan valuasi mencapai 1,5 miliar dolar AS. Pelanggan mereka telah melampaui 70.000, termasuk perusahaan besar seperti Airbnb dan IBM. Pendapatan mereka pun melonjak—tahun 2022 mencapai 40 juta dolar AS, dan prediksi pendapatan tahun penuh mencapai 90 juta dolar AS.
Aplikasi skala besar dalam pembuatan gambar
MidJourney menyederhanakan antarmuka sehingga pengguna tanpa pengalaman dapat menciptakan karya seni melalui deskripsi teks. Sistem backend mengenali makna melalui NLP, menerjemahkannya ke bahasa komputer, dan menggabungkan dataset internal untuk menghasilkan karya baru. Karya AI ini secara hukum termasuk karya cipta AI, sehingga banyak digunakan di media berita dan media sosial, menurunkan biaya sekaligus menghindari sengketa hak cipta. Beberapa pembuat dataset dan perpustakaan gambar mulai memanfaatkan AIGC untuk menciptakan bahan, dan melakukan monetisasi melalui media sosial mereka.
Video, audio, dan bidang vertikal lainnya
Model Phenaki dari Google menunjukkan potensi pembuatan video, mampu menghasilkan video panjang yang logis berdasarkan teks dalam waktu sangat singkat. Dengan teknologi manusia virtual, suara dan ekspresi wajah yang dihasilkan AIGC menjadi lebih realistis dan alami, jauh lebih efisien dan beragam dibandingkan virtual human yang hanya membaca naskah.
Di bidang audio, AIGC sudah banyak digunakan dalam kehidupan sehari-hari. Navigasi ponsel dapat beralih ke suara selebriti berbeda, pengguna Gaode Map dapat merekam voice pack pribadi. Aplikasi yang lebih mendalam muncul di bidang manusia virtual, di mana AIGC tidak hanya mampu menghasilkan suara, tetapi juga menciptakan konten, sehingga virtual human dapat mengekspresikan ide seperti manusia nyata.
Dalam pengembangan game, AIGC dapat digunakan untuk membangun scene, menulis cerita, dan menghasilkan NPC, secara signifikan meningkatkan efisiensi pengembangan. Pemain juga dapat membuat karakter virtual untuk aktivitas dalam game melalui platform AIGC. GitHub Copilot menyediakan saran kode dan telah dilatih dengan ratusan miliar baris kode terbuka.
Kerangka investasi AIGC: Ekosistem perangkat lunak, perangkat keras, dan data
Dari sudut pandang investasi, keberhasilan industri AIGC bergantung pada tiga lapisan: lapisan perangkat lunak (algoritma dan model), lapisan perangkat keras (daya komputasi), dan lapisan data (dataset pelatihan).
Akumulasi teknologi di lapisan perangkat lunak
Lapisan perangkat lunak meliputi teknologi NLP dan model algoritma generatif AIGC. Di bidang NLP, perusahaan seperti Google, Microsoft, iFlytek, Truesight memiliki keunggulan teknologi. Dalam hal model algoritma dan dataset, perusahaan seperti Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun Wanwei berada di garis depan. Mereka mengumpulkan data pelatihan dalam skala besar dan mengoptimalkan algoritma, membangun keunggulan kompetitif teknologi.
Dukungan perangkat keras dan daya komputasi
Daya komputasi adalah kekuatan utama di era AIGC. Saat ini, Stable Diffusion bergantung pada klaster GPU Nvidia A100 sebanyak 4000 unit, dengan biaya operasional lebih dari 50 juta dolar AS. Ini menunjukkan bahwa investasi besar dalam daya komputasi adalah fondasi perangkat keras untuk perkembangan AIGC. Pelaku di lapisan ini termasuk Lanke Technology, ZTE, EasyMile, Tianfutong, Baoxin Software, Zhongji Xuchuang. Dengan pembatasan ekspor chip Nvidia kelas atas, chip daya komputasi domestik akan mendapatkan peluang pasar tambahan.
Kualitas dataset menentukan batas kemampuan
Model CLIP dari OpenAI dilatih dengan 400 juta pasangan gambar dan teks berbahasa Inggris berkualitas tinggi, menunjukkan bahwa data berkualitas tinggi sangat menentukan performa model. Namun, menyalin keberhasilan ini sangat sulit—tim internasional menggunakan 2 miliar pasangan gambar-teks untuk mendekati hasil CLIP. Ini menunjukkan bahwa pengadaan, pembersihan, dan anotasi dataset membutuhkan biaya besar, dan kualitas, kepatuhan, serta keberagaman gaya data secara langsung mempengaruhi kualitas konten yang dihasilkan AIGC.
Tantangan teknologi dan arah terobosan AIGC
Meskipun AIGC sudah menunjukkan skala aplikasi bisnis, secara teknologi masih terdapat kekurangan nyata. Konten yang dihasilkan saat ini seringkali kurang detail dan tidak memenuhi standar tinggi untuk keperluan komersial.
Akar masalah akurasi
Dalam pembuatan gambar, AIGC cukup baik dalam menghasilkan gambar anime atau abstrak, tetapi dalam menangani detail spesifik sering mengalami kekurangan. Contohnya, saat menghasilkan gambar “wanita dan kucing boneka”, sistem sering salah menggambarkan detail seperti mata kucing dan hubungan spasial—misalnya, “wanita” yang dihasilkan malah memiliki wajah kucing. Masalah ini berakar pada kurangnya pemahaman dan pengolahan makna semantik alami, terutama dalam hal hubungan spasial dan kuantitas.
Tantangan bahasa dan lokalisasi
Perkembangan encoder teks yang tidak seimbang memperburuk masalah ini. Model Clip utama dari OpenAI dilatih dengan 400 juta pasangan gambar-teks berbahasa Inggris, dan meskipun fungsi sumber terbuka, dataset tertutup. Hal ini menyulitkan negara selain berbahasa Inggris untuk memperoleh miliaran pasangan teks-gambar berkualitas tinggi, sehingga aplikasi AIGC di luar bahasa Inggris memerlukan langkah terjemahan tambahan. Proses terjemahan ini tidak hanya melibatkan pemahaman semantik, tetapi juga faktor budaya dan kebiasaan bahasa, sehingga sulit untuk diterjemahkan secara akurat, menjadi tantangan besar bagi model terjemahan.
Pengaruh perbedaan algoritma dan dataset
Platform aplikasi yang berbeda menggunakan algoritma dan dataset berbeda, sehingga output dari input yang sama bisa sangat berbeda kualitasnya. Kualitas, kepatuhan, dan gaya dataset secara langsung mempengaruhi hasil generasi.
Tiga pilar pengembangan masa depan: model besar, data besar, daya komputasi besar
Melihat ke depan, arah utama pengembangan AIGC terfokus pada tiga aspek: model pralatihan skala besar, akumulasi data besar, dan investasi daya komputasi besar. Ini adalah syarat mutlak agar AIGC dapat bertransformasi dari “asisten” menjadi “pencipta independen”.
Yin Hongyan pernah merangkum tiga tahap perkembangan AIGC: tahap pertama adalah “tahap asisten”, di mana AIGC membantu manusia berkarya; tahap kedua adalah “tahap kolaborasi”, di mana AIGC berbentuk virtual dan bersinergi dengan manusia; tahap ketiga adalah “tahap orisinal”, di mana AIGC mampu berkarya secara mandiri. Dalam sepuluh tahun ke depan, AIGC diperkirakan mampu menghasilkan konten orisinal dengan biaya seperseratus dan kecepatan produksi seratus hingga seribu kali lipat, secara radikal mengubah pola produksi konten saat ini.
Untuk mewujudkan visi ini, pengembangan aplikasi vertikal yang khusus akan menjadi fokus utama. Dibandingkan model besar umum, aplikasi vertikal dapat melakukan pelatihan yang lebih tepat sasaran untuk fungsi tertentu, dengan biaya lebih rendah dan hasil lebih baik. Selain itu, sebelum kerangka regulasi kekayaan intelektual dan etika penciptaan AIGC lengkap, pengadaan dataset berkualitas tinggi dan patuh hukum akan menjadi strategi utama.
Peta jalan peluang investasi yang jelas
Dari sudut pandang makro, konsep blockchain, metaverse, dan Web3 menggambarkan skenario aplikasi ekonomi digital yang besar. Manusia virtual, NFT, dan lain-lain yang menjadi fokus perhatian modal saat ini hanyalah bagian dari gambaran besar tersebut. Sebagai alat utama yang mendorong upgrade ekonomi digital dari Web2 ke Web3, AIGC tidak hanya akan mengubah secara revolusioner aplikasi seperti video pendek dan game, tetapi juga di bawah nilai-nilai terbuka dan kolaboratif Web3, konten UGC dan AIGC akan menjadi lebih menarik, dan gelombang kreasi ulang serta imajinasi terbuka akan segera terjadi.
Dari strategi investasi, tiga dimensi industri AIGC—perangkat lunak, perangkat keras, dan dataset—menyimpan peluang:
Inovasi perangkat lunak: perusahaan teknologi NLP, aplikasi vertikal AIGC, perusahaan pelatihan model besar
Dukungan perangkat keras: di tengah pembatasan ekspor chip Nvidia, peluang pasar tambahan bagi chip daya komputasi domestik dan layanan klaster GPU
Ekosistem data: pengadaan, pembersihan, dan layanan anotasi dataset berkualitas tinggi akan menjadi sumber daya langka
Saat ini, AIGC telah menjadi arah startup terpanas di Silicon Valley, dan perhatian dari pasar modal domestik serta perusahaan internet besar terhadap aplikasi AIGC juga meningkat pesat. Ini menandai bahwa AIGC telah memasuki era aplikasi skala besar dari penelitian teknologi.
Peringatan risiko dan pengamatan kunci
Risiko teknologi: perkembangan teknologi AIGC mungkin tidak sesuai harapan, dan inovasi di bidang perangkat keras dasar (superkomputer, chip daya) bisa melambat.
Risiko kebijakan: AIGC saat ini masih di tahap awal, dan kemungkinan di masa depan akan muncul regulasi terkait hak kekayaan intelektual, hak cipta, atau regulasi hukum lain terkait konten yang dihasilkan AI, yang akan langsung mempengaruhi arah industri.
Risiko kompetisi: masuknya perusahaan teknologi besar dapat mempercepat konsolidasi industri, dan ruang hidup startup akan menghadapi tekanan.
Secara keseluruhan, nilai AIGC terletak pada transformasi mendasar dalam cara produksi konten. Dari sisi permintaan konten, era Web3 meningkatkan volume dan keberagaman kebutuhan konten; dari sisi pasokan, AIGC menyediakan efisiensi yang belum pernah ada. Saat ini adalah momen yang sempurna bagi AIGC untuk berkembang pesat dan mengubah berbagai industri.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Inovasi AIGC dalam Produksi Konten: Bagaimana Alat Produktivitas Era Web3 Mengubah Pola Industri
Sejak akhir 2022, institusi modal ventura terkemuka di Silicon Valley mulai mengalihkan perhatian mereka ke startup kecerdasan buatan, terutama di bidang seni AI generatif yang sedang panas. Stability AI dan Jasper secara berturut-turut menyelesaikan pendanaan lebih dari ratusan juta dolar AS, dengan valuasi keduanya menembus batas satu miliar dolar AS, dan berhasil masuk ke dalam daftar unicorn. Gelombang pendanaan ini didorong oleh logika mendalam dari AIGC (AI-Generated Content, konten yang dihasilkan kecerdasan buatan) sebagai transfer paradigma baru.
AIGC bukan hanya hasil dari kemajuan teknologi, tetapi juga revolusi dalam cara produksi konten. Dengan datangnya era Web3, kombinasi kecerdasan buatan, data terkait, dan jaringan semantik membentuk koneksi baru antara manusia dan jaringan, menyebabkan permintaan konsumsi konten mengalami lonjakan eksponensial. Metode produksi konten tradisional seperti PGC (konten profesional) dan UGC (konten pengguna) tidak lagi mampu memenuhi kebutuhan ekspansi ini, sehingga AIGC menjadi alat produktivitas baru di era Web3, menyediakan solusi untuk produksi massal konten metaverse.
Kebangkitan pasar AIGC: dari pinggiran menuju arus utama
Dari sudut pandang kemajuan teknologi dan aplikasi bisnis, alasan utama mengapa AIGC mampu menarik perhatian modal sebanyak ini dalam waktu singkat meliputi tiga faktor inti: pertama, terobosan dalam algoritma dasar dan perangkat keras; kedua, kematangan cepat dalam berbagai aplikasi vertikal; ketiga, sektor ini masih berada di tahap awal, meskipun perusahaan teknologi besar menguasai sebagian nilai, startup tetap memiliki peluang untuk melakukan terobosan.
Dalam hal aplikasi, AIGC sudah menunjukkan potensi multi-arah. Di bidang pembuatan teks, Jasper membantu pengguna membuat judul Instagram, skrip TikTok, copy iklan, dan isi email melalui fitur penulisan AI. Hingga saat laporan ini dirilis, Jasper telah memiliki lebih dari 70.000 pelanggan, termasuk raksasa industri seperti Airbnb dan IBM, dengan pendapatan tahun 2022 mencapai 40 juta dolar AS.
Dalam hal pembuatan gambar, kemajuan signifikan dicapai melalui teknologi model difusi. Rilis Stable Diffusion membuka era ledakan dalam bidang seni lukis AI. Platform media mulai mengadopsi AI secara skala besar untuk ilustrasi, tidak hanya menurunkan biaya produksi tetapi juga menghindari risiko hak cipta. OpenAI bahkan menjalin kemitraan mendalam dengan Shutterstock, salah satu perpustakaan gambar berhak cipta terbesar di dunia, dan gambar yang dihasilkan DALL-E telah menjadi pilihan baru dalam aplikasi komersial.
Video, audio, dan pembuatan kode juga menunjukkan prospek aplikasi yang luas. Model Phenaki dari Google mampu menghasilkan video panjang berdasarkan teks dalam dua menit; manusia virtual yang digabungkan dengan AIGC untuk suara dan ekspresi wajah dapat melakukan siaran otomatis dan peran karakter; GitHub Copilot telah menjadi asisten pengkodean bagi pengembang. Kematangan aplikasi ini menandai bahwa AIGC sedang bertransformasi dari alat pinggiran menjadi alat produktivitas arus utama.
Fondasi teknologi AIGC: Pemrosesan bahasa alami dan algoritma generatif
Memahami cara kerja AIGC memerlukan pemahaman mendalam terhadap dua pilar teknologi utama: Pemrosesan Bahasa Alami (NLP) dan algoritma generatif.
Evolusi Pemrosesan Bahasa Alami
NLP adalah fondasi interaksi manusia dan komputer melalui bahasa alami. Teknologi ini menggabungkan linguistik, ilmu komputer, dan matematika, memungkinkan komputer memahami bahasa alami, mengekstrak informasi, menerjemahkan otomatis, dan memproses konten. Sejak perkembangan NLP, tugas utamanya terbagi menjadi dua arah:
Pemahaman bahasa alami (NLU): bertujuan agar komputer mampu memahami bahasa seperti manusia. Berbeda dari komputer yang sebelumnya hanya mampu memproses data terstruktur, NLU memungkinkan komputer mengenali dan mengekstrak niat tersembunyi dalam bahasa, sehingga benar-benar memahami bahasa alami. Namun, karena keragaman, ambiguitas, dan ketergantungan konteks dari bahasa alami, performa komputer dalam pemahaman masih jauh di bawah manusia.
Generasi bahasa alami (NLG): mengubah data non-bahasa menjadi bentuk bahasa yang dapat dipahami manusia. Setelah melalui tiga tahap perkembangan—dari penggabungan data sederhana, berbasis template, hingga NLG tingkat tinggi—NLG kini mampu memahami niat, mempertimbangkan konteks, dan menyajikan hasil dalam bahasa yang alami dan lancar.
Terobosan utama NLP datang dari model Transformer yang dikembangkan Google pada 2017. Arsitektur ini menggunakan mekanisme perhatian diri (self-attention), yang mampu memberikan bobot berbeda pada bagian-bagian input berdasarkan pentingnya. Dibandingkan dengan jaringan syaraf berulang (RNN), Transformer dapat memproses seluruh input sekaligus, meningkatkan efisiensi komputasi secara paralel. Kemajuan teknologi ini melahirkan model besar seperti BERT dan GPT yang telah menjadi dasar bahasa yang kokoh untuk AIGC.
Dua aliran utama algoritma generatif
Dalam bidang algoritma generatif, dua pendekatan utama saat ini adalah Generative Adversarial Networks (GAN) dan model difusi.
GAN pertama kali diperkenalkan oleh Ian J. Goodfellow pada 2014, dengan desain yang melibatkan jaringan generator dan discriminator yang saling bersaing. Generator berusaha membuat data “palsu” untuk menipu discriminator, sementara discriminator berusaha mengenali data palsu tersebut. Dalam proses pelatihan yang bersifat adversarial ini, kedua jaringan berkembang secara bersamaan hingga mencapai keseimbangan—discriminator tidak lagi mampu membedakan data palsu. Pendekatan ini banyak digunakan dalam iklan, game, hiburan, untuk menciptakan karakter fiktif, memodifikasi wajah, dan konversi gaya.
Namun, GAN memiliki masalah ketidakstabilan pelatihan dan mode collapse. Generator dan discriminator harus disinkronkan secara hati-hati, tetapi dalam praktik sering terjadi discriminator konvergen sementara generator menyimpang. Kadang-kadang generator terjebak dalam mode yang hanya menghasilkan sampel yang sama, tidak mampu belajar lebih jauh.
Berbeda dengan GAN, model difusi menawarkan logika generatif yang lebih mendekati cara berpikir manusia dan menjadi kekuatan pendorong utama perkembangan pesat AIGC. Model ini bekerja dengan menambahkan noise Gaussian secara berurutan ke data pelatihan, kemudian belajar membalik proses ini untuk merekonstruksi data asli. Setelah pelatihan, model dapat menghasilkan data baru dengan menambahkan noise acak dan kemudian menghilangkan noise tersebut secara belajar.
Contohnya, DALL-E, setelah menerima deskripsi teks, pertama-tama menggunakan encoder teks (seperti model CLIP dari OpenAI) untuk memetakan teks ke ruang representasi; kemudian melalui model “prior” untuk memetakan teks ke encoding gambar yang menangkap makna semantik; terakhir, encoder gambar secara acak menghasilkan representasi visual, menyelesaikan proses penciptaan gambar. Proses ini mirip dengan imajinasi manusia—awal dari konsep dasar, lalu secara bertahap menambahkan detail dan lapisan makna.
Dibandingkan GAN, model difusi memiliki tiga keunggulan utama: kualitas gambar yang dihasilkan lebih tinggi, tidak memerlukan pelatihan adversarial sehingga lebih efisien, dan memiliki skalabilitas serta kemampuan komputasi paralel yang lebih baik. Karakteristik ini menjadikan model difusi sebagai representasi generasi gambar generasi berikutnya.
Jalur komersialisasi AIGC: dari asisten ke pencipta
Dari segi kematangan aplikasi, AIGC menunjukkan pola bisnis yang jelas di bidang teks, gambar, audio, game, dan kode. Terutama dalam tugas yang bersifat repetitif tinggi dan tidak memerlukan tingkat akurasi ekstrem, aplikasi AIGC sudah cukup matang dan aktif dieksplorasi untuk monetisasi. Penyedia layanan ini umumnya mengadopsi model SaaS berlangganan.
Model SaaS untuk penciptaan teks
Jasper adalah contoh utama di bidang pembuatan teks. Platform ini yang didirikan kurang dari dua tahun memungkinkan individu dan tim menciptakan konten komersial menggunakan AI. Pengguna memasukkan deskripsi dan kebutuhan tentang artikel yang diinginkan, sistem secara otomatis mengumpulkan data dan menulis sesuai instruksi. Sebagai contoh, saat penulis memasukkan “Tulis artikel tentang AIGC, termasuk definisi, sejarah, aplikasi, kondisi saat ini, dan tren masa depan,” Jasper dalam hitungan detik menghasilkan artikel lengkap yang logis, terstruktur, dan berisi contoh. Platform ini menyediakan ratusan template yang dapat dipilih sesuai kebutuhan.
Dalam hal performa bisnis, Jasper menunjukkan hasil yang mengesankan. Dalam putaran pendanaan terakhir, mereka memperoleh dana sebesar 125 juta dolar AS, dengan valuasi mencapai 1,5 miliar dolar AS. Pelanggan mereka telah melampaui 70.000, termasuk perusahaan besar seperti Airbnb dan IBM. Pendapatan mereka pun melonjak—tahun 2022 mencapai 40 juta dolar AS, dan prediksi pendapatan tahun penuh mencapai 90 juta dolar AS.
Aplikasi skala besar dalam pembuatan gambar
MidJourney menyederhanakan antarmuka sehingga pengguna tanpa pengalaman dapat menciptakan karya seni melalui deskripsi teks. Sistem backend mengenali makna melalui NLP, menerjemahkannya ke bahasa komputer, dan menggabungkan dataset internal untuk menghasilkan karya baru. Karya AI ini secara hukum termasuk karya cipta AI, sehingga banyak digunakan di media berita dan media sosial, menurunkan biaya sekaligus menghindari sengketa hak cipta. Beberapa pembuat dataset dan perpustakaan gambar mulai memanfaatkan AIGC untuk menciptakan bahan, dan melakukan monetisasi melalui media sosial mereka.
Video, audio, dan bidang vertikal lainnya
Model Phenaki dari Google menunjukkan potensi pembuatan video, mampu menghasilkan video panjang yang logis berdasarkan teks dalam waktu sangat singkat. Dengan teknologi manusia virtual, suara dan ekspresi wajah yang dihasilkan AIGC menjadi lebih realistis dan alami, jauh lebih efisien dan beragam dibandingkan virtual human yang hanya membaca naskah.
Di bidang audio, AIGC sudah banyak digunakan dalam kehidupan sehari-hari. Navigasi ponsel dapat beralih ke suara selebriti berbeda, pengguna Gaode Map dapat merekam voice pack pribadi. Aplikasi yang lebih mendalam muncul di bidang manusia virtual, di mana AIGC tidak hanya mampu menghasilkan suara, tetapi juga menciptakan konten, sehingga virtual human dapat mengekspresikan ide seperti manusia nyata.
Dalam pengembangan game, AIGC dapat digunakan untuk membangun scene, menulis cerita, dan menghasilkan NPC, secara signifikan meningkatkan efisiensi pengembangan. Pemain juga dapat membuat karakter virtual untuk aktivitas dalam game melalui platform AIGC. GitHub Copilot menyediakan saran kode dan telah dilatih dengan ratusan miliar baris kode terbuka.
Kerangka investasi AIGC: Ekosistem perangkat lunak, perangkat keras, dan data
Dari sudut pandang investasi, keberhasilan industri AIGC bergantung pada tiga lapisan: lapisan perangkat lunak (algoritma dan model), lapisan perangkat keras (daya komputasi), dan lapisan data (dataset pelatihan).
Akumulasi teknologi di lapisan perangkat lunak
Lapisan perangkat lunak meliputi teknologi NLP dan model algoritma generatif AIGC. Di bidang NLP, perusahaan seperti Google, Microsoft, iFlytek, Truesight memiliki keunggulan teknologi. Dalam hal model algoritma dan dataset, perusahaan seperti Nvidia, Meta, Baidu, BlueFocus, Visual China, Kunlun Wanwei berada di garis depan. Mereka mengumpulkan data pelatihan dalam skala besar dan mengoptimalkan algoritma, membangun keunggulan kompetitif teknologi.
Dukungan perangkat keras dan daya komputasi
Daya komputasi adalah kekuatan utama di era AIGC. Saat ini, Stable Diffusion bergantung pada klaster GPU Nvidia A100 sebanyak 4000 unit, dengan biaya operasional lebih dari 50 juta dolar AS. Ini menunjukkan bahwa investasi besar dalam daya komputasi adalah fondasi perangkat keras untuk perkembangan AIGC. Pelaku di lapisan ini termasuk Lanke Technology, ZTE, EasyMile, Tianfutong, Baoxin Software, Zhongji Xuchuang. Dengan pembatasan ekspor chip Nvidia kelas atas, chip daya komputasi domestik akan mendapatkan peluang pasar tambahan.
Kualitas dataset menentukan batas kemampuan
Model CLIP dari OpenAI dilatih dengan 400 juta pasangan gambar dan teks berbahasa Inggris berkualitas tinggi, menunjukkan bahwa data berkualitas tinggi sangat menentukan performa model. Namun, menyalin keberhasilan ini sangat sulit—tim internasional menggunakan 2 miliar pasangan gambar-teks untuk mendekati hasil CLIP. Ini menunjukkan bahwa pengadaan, pembersihan, dan anotasi dataset membutuhkan biaya besar, dan kualitas, kepatuhan, serta keberagaman gaya data secara langsung mempengaruhi kualitas konten yang dihasilkan AIGC.
Tantangan teknologi dan arah terobosan AIGC
Meskipun AIGC sudah menunjukkan skala aplikasi bisnis, secara teknologi masih terdapat kekurangan nyata. Konten yang dihasilkan saat ini seringkali kurang detail dan tidak memenuhi standar tinggi untuk keperluan komersial.
Akar masalah akurasi
Dalam pembuatan gambar, AIGC cukup baik dalam menghasilkan gambar anime atau abstrak, tetapi dalam menangani detail spesifik sering mengalami kekurangan. Contohnya, saat menghasilkan gambar “wanita dan kucing boneka”, sistem sering salah menggambarkan detail seperti mata kucing dan hubungan spasial—misalnya, “wanita” yang dihasilkan malah memiliki wajah kucing. Masalah ini berakar pada kurangnya pemahaman dan pengolahan makna semantik alami, terutama dalam hal hubungan spasial dan kuantitas.
Tantangan bahasa dan lokalisasi
Perkembangan encoder teks yang tidak seimbang memperburuk masalah ini. Model Clip utama dari OpenAI dilatih dengan 400 juta pasangan gambar-teks berbahasa Inggris, dan meskipun fungsi sumber terbuka, dataset tertutup. Hal ini menyulitkan negara selain berbahasa Inggris untuk memperoleh miliaran pasangan teks-gambar berkualitas tinggi, sehingga aplikasi AIGC di luar bahasa Inggris memerlukan langkah terjemahan tambahan. Proses terjemahan ini tidak hanya melibatkan pemahaman semantik, tetapi juga faktor budaya dan kebiasaan bahasa, sehingga sulit untuk diterjemahkan secara akurat, menjadi tantangan besar bagi model terjemahan.
Pengaruh perbedaan algoritma dan dataset
Platform aplikasi yang berbeda menggunakan algoritma dan dataset berbeda, sehingga output dari input yang sama bisa sangat berbeda kualitasnya. Kualitas, kepatuhan, dan gaya dataset secara langsung mempengaruhi hasil generasi.
Tiga pilar pengembangan masa depan: model besar, data besar, daya komputasi besar
Melihat ke depan, arah utama pengembangan AIGC terfokus pada tiga aspek: model pralatihan skala besar, akumulasi data besar, dan investasi daya komputasi besar. Ini adalah syarat mutlak agar AIGC dapat bertransformasi dari “asisten” menjadi “pencipta independen”.
Yin Hongyan pernah merangkum tiga tahap perkembangan AIGC: tahap pertama adalah “tahap asisten”, di mana AIGC membantu manusia berkarya; tahap kedua adalah “tahap kolaborasi”, di mana AIGC berbentuk virtual dan bersinergi dengan manusia; tahap ketiga adalah “tahap orisinal”, di mana AIGC mampu berkarya secara mandiri. Dalam sepuluh tahun ke depan, AIGC diperkirakan mampu menghasilkan konten orisinal dengan biaya seperseratus dan kecepatan produksi seratus hingga seribu kali lipat, secara radikal mengubah pola produksi konten saat ini.
Untuk mewujudkan visi ini, pengembangan aplikasi vertikal yang khusus akan menjadi fokus utama. Dibandingkan model besar umum, aplikasi vertikal dapat melakukan pelatihan yang lebih tepat sasaran untuk fungsi tertentu, dengan biaya lebih rendah dan hasil lebih baik. Selain itu, sebelum kerangka regulasi kekayaan intelektual dan etika penciptaan AIGC lengkap, pengadaan dataset berkualitas tinggi dan patuh hukum akan menjadi strategi utama.
Peta jalan peluang investasi yang jelas
Dari sudut pandang makro, konsep blockchain, metaverse, dan Web3 menggambarkan skenario aplikasi ekonomi digital yang besar. Manusia virtual, NFT, dan lain-lain yang menjadi fokus perhatian modal saat ini hanyalah bagian dari gambaran besar tersebut. Sebagai alat utama yang mendorong upgrade ekonomi digital dari Web2 ke Web3, AIGC tidak hanya akan mengubah secara revolusioner aplikasi seperti video pendek dan game, tetapi juga di bawah nilai-nilai terbuka dan kolaboratif Web3, konten UGC dan AIGC akan menjadi lebih menarik, dan gelombang kreasi ulang serta imajinasi terbuka akan segera terjadi.
Dari strategi investasi, tiga dimensi industri AIGC—perangkat lunak, perangkat keras, dan dataset—menyimpan peluang:
Saat ini, AIGC telah menjadi arah startup terpanas di Silicon Valley, dan perhatian dari pasar modal domestik serta perusahaan internet besar terhadap aplikasi AIGC juga meningkat pesat. Ini menandai bahwa AIGC telah memasuki era aplikasi skala besar dari penelitian teknologi.
Peringatan risiko dan pengamatan kunci
Risiko teknologi: perkembangan teknologi AIGC mungkin tidak sesuai harapan, dan inovasi di bidang perangkat keras dasar (superkomputer, chip daya) bisa melambat.
Risiko kebijakan: AIGC saat ini masih di tahap awal, dan kemungkinan di masa depan akan muncul regulasi terkait hak kekayaan intelektual, hak cipta, atau regulasi hukum lain terkait konten yang dihasilkan AI, yang akan langsung mempengaruhi arah industri.
Risiko kompetisi: masuknya perusahaan teknologi besar dapat mempercepat konsolidasi industri, dan ruang hidup startup akan menghadapi tekanan.
Secara keseluruhan, nilai AIGC terletak pada transformasi mendasar dalam cara produksi konten. Dari sisi permintaan konten, era Web3 meningkatkan volume dan keberagaman kebutuhan konten; dari sisi pasokan, AIGC menyediakan efisiensi yang belum pernah ada. Saat ini adalah momen yang sempurna bagi AIGC untuk berkembang pesat dan mengubah berbagai industri.