Dalam E-Commerce, teknisi sering berbicara tentang masalah infrastruktur besar: arsitektur pencarian, manajemen stok real-time, mesin personalisasi. Namun di balik permukaan tersembunyi masalah yang lebih jahat, yang hampir setiap pedagang online alami: normalisasi atribut produk. Katalog produk yang berantakan dengan nilai yang tidak konsisten untuk ukuran, warna, bahan, atau spesifikasi teknis merusak semua yang datang setelahnya – filter tidak dapat diandalkan, mesin pencari kehilangan presisi, pembersihan data manual menghabiskan sumber daya.
Sebagai insinyur Full-Stack di Zoro, saya berurusan setiap hari dengan masalah ini: Bagaimana mengatur 3+ juta SKU, yang masing-masing memiliki puluhan atribut? Jawabannya bukan dalam sebuah sistem AI kotak hitam, melainkan dalam sistem hybrid cerdas yang menggabungkan kemampuan LLM dengan aturan bisnis yang jelas dan mekanisme kontrol manual.
Masalah dalam skala besar
Secara kasat mata, inkonsistensi atribut tampak tidak berbahaya. Perhatikan ukuran: “XL”, “Small”, “12cm”, “Large”, “M”, “S” – semuanya berarti sama, tapi tidak ada standar yang konsisten. Untuk warna pun serupa: “RAL 3020”, “Crimson”, “Red”, “Dark Red” – sebagian mengikuti standar warna (RAL 3020 adalah merah yang distandarisasi), sebagian lagi nama fantasi.
Kalikan kekacauan ini dengan jutaan produk, dan dampaknya menjadi dramatis:
Pelanggan melihat filter yang berantakan dan menyerah pada pencarian
Mesin pencari tidak dapat memberi peringkat produk secara akurat
Analisis menunjukkan tren yang salah
Tim merchandising kewalahan dengan pembersihan data manual
Pendekatan strategis: AI hybrid dengan aturan
Tujuan saya bukanlah sistem AI misterius yang melakukan sihir hitam. Sebaliknya, saya ingin sistem yang:
Dapat dijelaskan – orang memahami mengapa keputusan diambil
Prediktif – berjalan tanpa kejutan atau anomali
Skalabel – mampu mengelola jutaan atribut
Dapat dikendalikan manusia – tim bisnis bisa campur tangan
Hasilnya adalah pipeline yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol bisnis. AI dengan pagar pembatas, bukan AI tanpa batas.
Mengapa pemrosesan offline daripada real-time?
Keputusan arsitektural pertama adalah fundamental: semua proses atribut berjalan dalam pekerjaan latar belakang asinkron, bukan secara real-time. Ini terdengar seperti kompromi, tetapi sebenarnya adalah keputusan strategis dengan keuntungan besar:
Pipeline real-time akan menyebabkan:
Latensi tak terduga di halaman produk
Ketergantungan rapuh antar sistem
Biaya melonjak saat trafik tinggi
Dampak langsung pada pengalaman pelanggan
Sebaliknya, pekerjaan offline menawarkan:
Throughput tinggi: batch besar tanpa mempengaruhi sistem langsung
Ketahanan: kesalahan proses tidak pernah mempengaruhi pelanggan
Pengendalian biaya: melakukan kalkulasi saat trafik rendah
Isolasi: latensi LLM terisolasi dari layanan yang langsung dihadapi pengguna
Pembaruan atomik: perubahan konsisten atau tidak sama sekali
Memisahkan sistem pelanggan dan pemrosesan data sangat penting saat bekerja dengan volume data sebesar ini.
Pipeline pemrosesan
Proses berjalan dalam beberapa fase:
Fase 1: Pembersihan data
Sebelum AI digunakan, data melewati tahap pra-pemrosesan:
Trim whitespace
Hapus nilai kosong
Deduplikasi duplikat
Konversi konteks kategori ke string terstruktur
Langkah yang tampaknya sepele ini secara dramatis meningkatkan akurasi LLM. Prinsipnya: sampah masuk, sampah keluar. Dalam skala ini, kesalahan kecil pun nanti bisa menyebabkan masalah besar.
Fase 2: Penalaran AI dengan konteks
LLM tidak sekadar mengurutkan secara alfabet. Ia berpikir tentang nilai-nilai tersebut. Layanan menerima:
Nilai atribut yang dibersihkan
Breadcrumb kategori (misalnya “Alat Listrik > Bor”)
Metadata atribut
Dengan konteks ini, model dapat memahami:
Bahwa “Tegangan” pada alat listrik harus diurutkan secara numerik
Bahwa “Ukuran” mengikuti urutan yang dikenal (S, M, L, XL)
Bahwa “Warna” kadang mengikuti standar seperti RAL 3020
Bahwa “Bahan” memiliki hubungan semantik (Baja > Baja Tahan Karat > Baja Karbon)
Model mengembalikan:
Nilai atribut yang diurutkan
Nama atribut yang diperhalus
Klasifikasi: Haruskah ini diurutkan secara deterministik atau kontekstual?
Fase 3: Cadangan deterministik
Tidak semua atribut membutuhkan AI. Banyak atribut lebih baik ditangani dengan logika yang jelas:
Pipeline secara otomatis mengenali ini dan menerapkan logika deterministik. Ini menghemat biaya dan menjamin konsistensi.
Fase 4: Kontrol oleh pedagang
Atribut yang krusial secara bisnis memerlukan titik pemeriksaan manual. Oleh karena itu, setiap kategori dapat diberi label:
LLM_SORT: Model menentukan urutan
MANUAL_SORT: Pedagang menentukan urutan
Sistem ganda ini memberi manusia kendali terakhir. Jika LLM salah, mereka bisa menimpanya tanpa menghentikan pipeline.
Persistensi dan sistem downstream
Semua hasil langsung disimpan di MongoDB – satu sumber kebenaran untuk:
Nilai atribut yang diurutkan
Nama atribut yang diperhalus
Tag urutan tingkat kategori
Urutan sort di level produk
Kemudian data mengalir ke dua arah:
Elasticsearch: Untuk pencarian berbasis kata kunci, di mana filter bersih menggerakkan menu filter
Vespa: Untuk pencarian semantik dan vektor, di mana konsistensi meningkatkan peringkat
Filter sekarang muncul dalam urutan logis. Halaman produk menampilkan spesifikasi yang koheren. Mesin pencari memberi peringkat produk lebih akurat. Pelanggan menavigasi kategori tanpa frustrasi.
Hasil konkret
Pipeline mengubah data mentah yang berantakan menjadi keluaran bersih dan usable:
Atribut
Data Mentah
Output Terurut
Ukuran
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Warna
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020
Bahan
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Numerik
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Transformasi ini konsisten di atas 3+ juta SKU.
Dampaknya
Hasilnya melampaui aspek teknis:
Urutan atribut yang konsisten di seluruh katalog
Perilaku prediktif pada nilai numerik berkat fallback deterministik
Kontrol bisnis melalui sistem tagging manual
Halaman produk bersih dengan filter intuitif
Relevansi pencarian meningkat untuk pelanggan
Kepercayaan lebih tinggi dan rasio konversi yang lebih baik
Bukan hanya kemenangan teknis – ini kemenangan bisnis.
Pelajaran utama
Pipeline hybrid mengalahkan AI murni dalam skala besar. Pagar pembatas bukan hambatan – itu fitur.
Konteks adalah segalanya: LLM dengan info kategori dan metadata atribut 10x lebih akurat daripada tanpa.
Pemrosesan offline penting: Dengan volume data sebesar ini, batch efisien dan toleran kesalahan lebih penting daripada latensi real-time.
Kontrol manusia membangun kepercayaan: Tim menerima AI jika mereka bisa mengendalikan.
Kebersihan data adalah fondasi: Input bersih = output andal. Selalu.
Kesimpulan
Normalisasi nilai atribut terdengar sepele – sampai harus dilakukan secara real-time untuk jutaan produk. Dengan menggabungkan kecerdasan LLM, aturan yang jelas, dan kontrol manusia, saya mengubah masalah tersembunyi dan membandel ini menjadi sistem yang skalabel.
Ini pengingat: Beberapa kemenangan besar di E-Commerce bukan berasal dari teknologi canggih yang glamor, tetapi dari menyelesaikan masalah membosankan – yang menyentuh setiap halaman produk.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Dari Kekacauan ke Kejernihan: Bagaimana Kecerdasan Buatan Mengubah Katalog E-Commerce
Dalam E-Commerce, teknisi sering berbicara tentang masalah infrastruktur besar: arsitektur pencarian, manajemen stok real-time, mesin personalisasi. Namun di balik permukaan tersembunyi masalah yang lebih jahat, yang hampir setiap pedagang online alami: normalisasi atribut produk. Katalog produk yang berantakan dengan nilai yang tidak konsisten untuk ukuran, warna, bahan, atau spesifikasi teknis merusak semua yang datang setelahnya – filter tidak dapat diandalkan, mesin pencari kehilangan presisi, pembersihan data manual menghabiskan sumber daya.
Sebagai insinyur Full-Stack di Zoro, saya berurusan setiap hari dengan masalah ini: Bagaimana mengatur 3+ juta SKU, yang masing-masing memiliki puluhan atribut? Jawabannya bukan dalam sebuah sistem AI kotak hitam, melainkan dalam sistem hybrid cerdas yang menggabungkan kemampuan LLM dengan aturan bisnis yang jelas dan mekanisme kontrol manual.
Masalah dalam skala besar
Secara kasat mata, inkonsistensi atribut tampak tidak berbahaya. Perhatikan ukuran: “XL”, “Small”, “12cm”, “Large”, “M”, “S” – semuanya berarti sama, tapi tidak ada standar yang konsisten. Untuk warna pun serupa: “RAL 3020”, “Crimson”, “Red”, “Dark Red” – sebagian mengikuti standar warna (RAL 3020 adalah merah yang distandarisasi), sebagian lagi nama fantasi.
Kalikan kekacauan ini dengan jutaan produk, dan dampaknya menjadi dramatis:
Pendekatan strategis: AI hybrid dengan aturan
Tujuan saya bukanlah sistem AI misterius yang melakukan sihir hitam. Sebaliknya, saya ingin sistem yang:
Hasilnya adalah pipeline yang menggabungkan kecerdasan LLM dengan aturan yang jelas dan kontrol bisnis. AI dengan pagar pembatas, bukan AI tanpa batas.
Mengapa pemrosesan offline daripada real-time?
Keputusan arsitektural pertama adalah fundamental: semua proses atribut berjalan dalam pekerjaan latar belakang asinkron, bukan secara real-time. Ini terdengar seperti kompromi, tetapi sebenarnya adalah keputusan strategis dengan keuntungan besar:
Pipeline real-time akan menyebabkan:
Sebaliknya, pekerjaan offline menawarkan:
Memisahkan sistem pelanggan dan pemrosesan data sangat penting saat bekerja dengan volume data sebesar ini.
Pipeline pemrosesan
Proses berjalan dalam beberapa fase:
Fase 1: Pembersihan data
Sebelum AI digunakan, data melewati tahap pra-pemrosesan:
Langkah yang tampaknya sepele ini secara dramatis meningkatkan akurasi LLM. Prinsipnya: sampah masuk, sampah keluar. Dalam skala ini, kesalahan kecil pun nanti bisa menyebabkan masalah besar.
Fase 2: Penalaran AI dengan konteks
LLM tidak sekadar mengurutkan secara alfabet. Ia berpikir tentang nilai-nilai tersebut. Layanan menerima:
Dengan konteks ini, model dapat memahami:
Model mengembalikan:
Fase 3: Cadangan deterministik
Tidak semua atribut membutuhkan AI. Banyak atribut lebih baik ditangani dengan logika yang jelas:
Pipeline secara otomatis mengenali ini dan menerapkan logika deterministik. Ini menghemat biaya dan menjamin konsistensi.
Fase 4: Kontrol oleh pedagang
Atribut yang krusial secara bisnis memerlukan titik pemeriksaan manual. Oleh karena itu, setiap kategori dapat diberi label:
Sistem ganda ini memberi manusia kendali terakhir. Jika LLM salah, mereka bisa menimpanya tanpa menghentikan pipeline.
Persistensi dan sistem downstream
Semua hasil langsung disimpan di MongoDB – satu sumber kebenaran untuk:
Kemudian data mengalir ke dua arah:
Filter sekarang muncul dalam urutan logis. Halaman produk menampilkan spesifikasi yang koheren. Mesin pencari memberi peringkat produk lebih akurat. Pelanggan menavigasi kategori tanpa frustrasi.
Hasil konkret
Pipeline mengubah data mentah yang berantakan menjadi keluaran bersih dan usable:
Transformasi ini konsisten di atas 3+ juta SKU.
Dampaknya
Hasilnya melampaui aspek teknis:
Bukan hanya kemenangan teknis – ini kemenangan bisnis.
Pelajaran utama
Kesimpulan
Normalisasi nilai atribut terdengar sepele – sampai harus dilakukan secara real-time untuk jutaan produk. Dengan menggabungkan kecerdasan LLM, aturan yang jelas, dan kontrol manusia, saya mengubah masalah tersembunyi dan membandel ini menjadi sistem yang skalabel.
Ini pengingat: Beberapa kemenangan besar di E-Commerce bukan berasal dari teknologi canggih yang glamor, tetapi dari menyelesaikan masalah membosankan – yang menyentuh setiap halaman produk.