Dari Kekacauan ke Kejernihan: Bagaimana Kecerdasan Buatan Mengubah Katalog E-Commerce

2026-01-15 22:21:07

Dalam E-Commerce, teknisi sering berbicara tentang masalah infrastruktur besar: arsitektur pencarian, manajemen stok real-time, mesin personalisasi. Namun di balik permukaan tersembunyi masalah yang lebih jahat, yang hampir setiap pedagang online alami: normalisasi atribut produk. Katalog produk yang berantakan dengan nilai yang tidak konsisten untuk ukuran, warna, bahan, atau spesifikasi teknis merusak semua yang datang setelahnya – filter tidak dapat diandalkan, mesin pencari kehilangan presisi, pembersihan data manual menghabiskan sumber daya.

Sebagai insinyur Full-Stack di Zoro, saya berurusan setiap hari dengan masalah ini: Bagaimana mengatur 3+ juta SKU, yang masing-masing memiliki puluhan atribut? Jawabannya bukan dalam sebuah sistem AI kotak hitam, melainkan dalam sistem hybrid cerdas yang menggabungkan kemampuan LLM dengan aturan bisnis yang jelas dan mekanisme kontrol manual.

Masalah dalam skala besar

Secara kasat mata, inkonsistensi atribut tampak tidak berbahaya. Perhatikan ukuran: “XL”, “Small”, “12cm”, “Large”, “M”, “S” – semuanya berarti sama, tapi tidak ada standar yang konsisten. Untuk warna pun serupa: “RAL 3020”, “Crimson”, “Red”, “Dark Red” – sebagian mengikuti standar warna (RAL 3020 adalah merah yang distandarisasi), sebagian lagi nama fantasi.

Kalikan kekacauan ini dengan jutaan produk, dan dampaknya menjadi dramatis:

Pelanggan melihat filter yang berantakan dan menyerah pada pencarian
Mesin pencari tidak dapat memberi peringkat produk secara akurat
Analisis menunjukkan tren yang salah
Tim merchandising kewalahan dengan pembersihan data manual

Pendekatan strategis: AI hybrid dengan aturan

Tujuan saya bukanlah sistem AI misterius yang melakukan sihir hitam. Sebaliknya, saya ingin sistem yang:

Dapat dijelaskan – orang memahami mengapa keputusan diambil
Prediktif – berjalan tanpa kejutan atau anomali
Skalabel – mampu mengelola jutaan atribut
Dapat dikendalikan manusia – tim bisnis bisa campur tangan

Hasilnya adalah pipeline yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol bisnis. AI dengan pagar pembatas, bukan AI tanpa batas.

Mengapa pemrosesan offline daripada real-time?

Keputusan arsitektural pertama adalah fundamental: semua proses atribut berjalan dalam pekerjaan latar belakang asinkron, bukan secara real-time. Ini terdengar seperti kompromi, tetapi sebenarnya adalah keputusan strategis dengan keuntungan besar:

Pipeline real-time akan menyebabkan:

Latensi tak terduga di halaman produk
Ketergantungan rapuh antar sistem
Biaya melonjak saat trafik tinggi
Dampak langsung pada pengalaman pelanggan

Sebaliknya, pekerjaan offline menawarkan:

Throughput tinggi: batch besar tanpa mempengaruhi sistem langsung
Ketahanan: kesalahan proses tidak pernah mempengaruhi pelanggan
Pengendalian biaya: melakukan kalkulasi saat trafik rendah
Isolasi: latensi LLM terisolasi dari layanan yang langsung dihadapi pengguna
Pembaruan atomik: perubahan konsisten atau tidak sama sekali

Memisahkan sistem pelanggan dan pemrosesan data sangat penting saat bekerja dengan volume data sebesar ini.

Pipeline pemrosesan

Proses berjalan dalam beberapa fase:

Fase 1: Pembersihan data

Sebelum AI digunakan, data melewati tahap pra-pemrosesan:

Trim whitespace
Hapus nilai kosong
Deduplikasi duplikat
Konversi konteks kategori ke string terstruktur

Langkah yang tampaknya sepele ini secara dramatis meningkatkan akurasi LLM. Prinsipnya: sampah masuk, sampah keluar. Dalam skala ini, kesalahan kecil pun nanti bisa menyebabkan masalah besar.

Fase 2: Penalaran AI dengan konteks

LLM tidak sekadar mengurutkan secara alfabet. Ia berpikir tentang nilai-nilai tersebut. Layanan menerima:

Nilai atribut yang dibersihkan
Breadcrumb kategori (misalnya “Alat Listrik > Bor”)
Metadata atribut

Dengan konteks ini, model dapat memahami:

Bahwa “Tegangan” pada alat listrik harus diurutkan secara numerik
Bahwa “Ukuran” mengikuti urutan yang dikenal (S, M, L, XL)
Bahwa “Warna” kadang mengikuti standar seperti RAL 3020
Bahwa “Bahan” memiliki hubungan semantik (Baja > Baja Tahan Karat > Baja Karbon)

Model mengembalikan:

Nilai atribut yang diurutkan
Nama atribut yang diperhalus
Klasifikasi: Haruskah ini diurutkan secara deterministik atau kontekstual?

Fase 3: Cadangan deterministik

Tidak semua atribut membutuhkan AI. Banyak atribut lebih baik ditangani dengan logika yang jelas:

Rentang numerik (2cm, 5cm, 12cm, 20cm → diurutkan naik)
Nilai berbasis satuan
Koleksi kategorikal

Pipeline secara otomatis mengenali ini dan menerapkan logika deterministik. Ini menghemat biaya dan menjamin konsistensi.

Fase 4: Kontrol oleh pedagang

Atribut yang krusial secara bisnis memerlukan titik pemeriksaan manual. Oleh karena itu, setiap kategori dapat diberi label:

LLM_SORT: Model menentukan urutan
MANUAL_SORT: Pedagang menentukan urutan

Sistem ganda ini memberi manusia kendali terakhir. Jika LLM salah, mereka bisa menimpanya tanpa menghentikan pipeline.

Persistensi dan sistem downstream

Semua hasil langsung disimpan di MongoDB – satu sumber kebenaran untuk:

Nilai atribut yang diurutkan
Nama atribut yang diperhalus
Tag urutan tingkat kategori
Urutan sort di level produk

Kemudian data mengalir ke dua arah:

Elasticsearch: Untuk pencarian berbasis kata kunci, di mana filter bersih menggerakkan menu filter
Vespa: Untuk pencarian semantik dan vektor, di mana konsistensi meningkatkan peringkat

Filter sekarang muncul dalam urutan logis. Halaman produk menampilkan spesifikasi yang koheren. Mesin pencari memberi peringkat produk lebih akurat. Pelanggan menavigasi kategori tanpa frustrasi.

Hasil konkret

Pipeline mengubah data mentah yang berantakan menjadi keluaran bersih dan usable:

Atribut	Data Mentah	Output Terurut
Ukuran	XL, Small, 12cm, Large, M, S	Small, M, Large, XL, 12cm
Warna	RAL 3020, Crimson, Red, Dark Red	Red, Dark Red, Crimson, RAL 3020
Bahan	Steel, Carbon Steel, Stainless, Stainless Steel	Steel, Stainless Steel, Carbon Steel
Numerik	5cm, 12cm, 2cm, 20cm	2cm, 5cm, 12cm, 20cm

Transformasi ini konsisten di atas 3+ juta SKU.

Dampaknya

Hasilnya melampaui aspek teknis:

Urutan atribut yang konsisten di seluruh katalog
Perilaku prediktif pada nilai numerik berkat fallback deterministik
Kontrol bisnis melalui sistem tagging manual
Halaman produk bersih dengan filter intuitif
Relevansi pencarian meningkat untuk pelanggan
Kepercayaan lebih tinggi dan rasio konversi yang lebih baik

Bukan hanya kemenangan teknis – ini kemenangan bisnis.

Pelajaran utama

Pipeline hybrid mengalahkan AI murni dalam skala besar. Pagar pembatas bukan hambatan – itu fitur.
Konteks adalah segalanya: LLM dengan info kategori dan metadata atribut 10x lebih akurat daripada tanpa.
Pemrosesan offline penting: Dengan volume data sebesar ini, batch efisien dan toleran kesalahan lebih penting daripada latensi real-time.
Kontrol manusia membangun kepercayaan: Tim menerima AI jika mereka bisa mengendalikan.
Kebersihan data adalah fondasi: Input bersih = output andal. Selalu.

Kesimpulan

Normalisasi nilai atribut terdengar sepele – sampai harus dilakukan secara real-time untuk jutaan produk. Dengan menggabungkan kecerdasan LLM, aturan yang jelas, dan kontrol manusia, saya mengubah masalah tersembunyi dan membandel ini menjadi sistem yang skalabel.

Ini pengingat: Beberapa kemenangan besar di E-Commerce bukan berasal dari teknologi canggih yang glamor, tetapi dari menyelesaikan masalah membosankan – yang menyentuh setiap halaman produk.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.