Trong lĩnh vực Thương mại điện tử, các kỹ thuật viên thường xuyên bàn luận về các vấn đề hạ tầng lớn: kiến trúc tìm kiếm, quản lý kho hàng theo thời gian thực, các hệ thống cá nhân hóa. Tuy nhiên, dưới bề mặt tồn tại một vấn đề phức tạp hơn, ảnh hưởng đến gần như mọi nhà bán lẻ trực tuyến: chuẩn hóa thuộc tính sản phẩm. Một danh mục sản phẩm hỗn loạn với các giá trị không nhất quán về kích thước, màu sắc, chất liệu hoặc thông số kỹ thuật sẽ phá hỏng mọi thứ phía sau – bộ lọc hoạt động không đáng tin cậy, công cụ tìm kiếm mất độ chính xác, việc làm sạch dữ liệu thủ công tiêu tốn nguồn lực.
Là một kỹ sư Full-Stack tại Zoro, tôi hàng ngày đối mặt với vấn đề này: Làm thế nào để đưa trật tự vào hơn 3 triệu SKU, mỗi cái có hàng chục thuộc tính? Câu trả lời không nằm trong một hệ thống AI “hộp đen”, mà trong một hệ thống lai thông minh, kết hợp khả năng suy luận của LLM với các quy tắc rõ ràng và cơ chế kiểm soát thủ công.
Vấn đề quy mô lớn
Nhìn bề ngoài, các sự không nhất quán về thuộc tính có vẻ vô hại. Xem xét các chỉ số kích thước: “XL”, “Small”, “12cm”, “Large”, “M”, “S” – tất cả đều mang ý nghĩa tương tự, nhưng không theo chuẩn nào cả. Với màu sắc cũng vậy: “RAL 3020”, “Crimson”, “Red”, “Dark Red” – có thể là tiêu chuẩn màu (RAL 3020 là một màu đỏ tiêu chuẩn), hoặc là các tên gọi tưởng tượng.
Nhân lên sự hỗn loạn này qua hàng triệu sản phẩm, và tác động sẽ rất lớn:
Khách hàng thấy các bộ lọc rối rắm và bỏ cuộc tìm kiếm
Các công cụ tìm kiếm không thể xếp hạng chính xác sản phẩm
Phân tích cho ra các xu hướng sai lệch
Nhóm marketing bị nghẽn trong việc làm sạch dữ liệu thủ công
Phương pháp chiến lược: AI lai kết hợp quy tắc
Mục tiêu của tôi không phải là một hệ thống AI bí ẩn, vận hành như ma thuật đen tối. Thay vào đó, tôi muốn xây dựng một hệ thống:
Giải thích được – người dùng hiểu lý do quyết định
Dự đoán chính xác – không có lỗi bất ngờ hoặc bất thường
Có thể mở rộng – qua hàng triệu thuộc tính
Dễ kiểm soát bởi con người – các nhóm kinh doanh có thể can thiệp
Kết quả là một pipeline kết hợp trí tuệ LLM với các quy tắc rõ ràng và kiểm soát kinh doanh. AI có giới hạn, chứ không phải AI vô hạn.
Tại sao xử lý ngoại tuyến thay vì thời gian thực?
Quyết định kiến trúc ban đầu là nền tảng: tất cả xử lý thuộc tính diễn ra trong các công việc nền tảng bất đồng bộ, không trong thời gian thực. Điều này nghe có vẻ là một sự thỏa hiệp, nhưng thực ra là một quyết định chiến lược mang lại lợi ích lớn:
Pipeline thời gian thực gây ra:
Độ trễ không thể đoán trước trên trang sản phẩm
Phụ thuộc mong manh giữa các hệ thống
Chi phí tăng cao đột biến khi có đỉnh lưu lượng truy cập
Ảnh hưởng trực tiếp đến trải nghiệm khách hàng
Công việc ngoại tuyến mang lại:
Hiệu suất cao: xử lý hàng loạt lớn mà không ảnh hưởng hệ thống trực tiếp
Độ bền cao: lỗi xử lý không ảnh hưởng khách hàng
Kiểm soát chi phí: thực hiện tính toán vào thời điểm ít traffic
Độc lập: độ trễ của LLM tách biệt khỏi dịch vụ hướng tới người dùng
Cập nhật nguyên tử: thay đổi nhất quán hoặc không cập nhật
Việc tách biệt hệ thống khách hàng và xử lý dữ liệu là điều tối quan trọng khi làm việc với lượng dữ liệu này.
Quy trình xử lý
Quy trình diễn ra qua nhiều giai đoạn:
Giai đoạn 1: Làm sạch dữ liệu
Trước khi dùng AI, dữ liệu đi qua bước tiền xử lý:
Cắt bỏ khoảng trắng
Loại bỏ giá trị rỗng
Loại bỏ trùng lặp
Chuyển đổi ngữ cảnh danh mục thành chuỗi có cấu trúc
Bước tưởng chừng đơn giản này đã nâng cao độ chính xác của LLM rõ rệt. Nguyên tắc: rác vào, rác ra. Ở quy mô này, ngay cả lỗi nhỏ cũng gây ra vấn đề lớn sau này.
Giai đoạn 2: Suy luận AI có ngữ cảnh
LLM không chỉ sắp xếp theo bảng chữ cái. Nó suy nghĩ về các giá trị. Dịch vụ nhận:
Các giá trị thuộc tính đã làm sạch
Breadcrumb danh mục (ví dụ: “Dụng cụ điện > Máy khoan”)
Metadata thuộc tính
Với ngữ cảnh này, mô hình hiểu:
“Điện áp” trong dụng cụ điện nên được sắp xếp theo số
“Kích thước” theo một trình tự đã biết (S, M, L, XL)
“Màu sắc” có thể theo tiêu chuẩn như RAL 3020
“Chất liệu” có các mối quan hệ ngữ nghĩa (Thép > Thép không gỉ > Thép carbon)
Mô hình trả về:
Các giá trị thuộc tính đã sắp xếp
Tên thuộc tính được tinh chỉnh
Phân loại: nên sắp xếp theo quy tắc hay theo ngữ cảnh?
Giai đoạn 3: Các phương án dự phòng xác định
Không phải thuộc tính nào cũng cần AI. Nhiều thuộc tính phù hợp hơn với logic rõ ràng:
Các khoảng số (2cm, 5cm, 12cm, 20cm → sắp xếp tăng dần)
Các giá trị dựa trên đơn vị
Các tập danh mục
Pipeline tự động nhận diện và áp dụng logic xác định. Tiết kiệm chi phí và đảm bảo tính nhất quán.
Giai đoạn 4: Kiểm soát thủ công của nhà bán hàng
Các thuộc tính quan trọng cần có bước kiểm tra thủ công. Vì vậy, mỗi danh mục có thể được đánh dấu:
LLM_SORT: mô hình quyết định
MANUAL_SORT: nhà bán hàng xác định thứ tự
Hệ thống kép này cung cấp quyền kiểm soát cuối cùng cho con người. Nếu LLM sai, người bán có thể ghi đè – mà không cần dừng pipeline.
Lưu trữ và hệ thống phụ trợ
Tất cả kết quả được lưu trực tiếp vào MongoDB – nguồn dữ liệu duy nhất cho:
Các giá trị thuộc tính đã sắp xếp
Tên thuộc tính đã tinh chỉnh
Thẻ sắp xếp theo danh mục
Thứ tự sắp xếp theo sản phẩm
Sau đó, dữ liệu được đẩy theo hai hướng:
Elasticsearch: cho tìm kiếm dựa trên từ khóa, nơi bộ lọc thuộc tính sạch sẽ thúc đẩy trải nghiệm
Vespa: cho tìm kiếm ngữ nghĩa và vectơ, nơi tính nhất quán cải thiện xếp hạng
Bộ lọc giờ đây xuất hiện theo thứ tự hợp lý. Trang sản phẩm hiển thị thông số rõ ràng. Công cụ tìm kiếm xếp hạng chính xác hơn. Khách hàng duyệt qua danh mục dễ dàng hơn.
Kết quả cụ thể
Pipeline biến đổi dữ liệu thô hỗn loạn thành dữ liệu sạch, có thể dùng được:
Thuộc tính
Dữ liệu thô
Kết quả đã sắp xếp
Kích thước
XL, Small, 12cm, Large, M, S
Small, M, Large, XL, 12cm
Màu sắc
RAL 3020, Crimson, Red, Dark Red
Red, Dark Red, Crimson, RAL 3020
Chất liệu
Steel, Carbon Steel, Stainless, Stainless Steel
Steel, Stainless Steel, Carbon Steel
Số
5cm, 12cm, 2cm, 20cm
2cm, 5cm, 12cm, 20cm
Sự biến đổi này nhất quán trên hơn 3 triệu SKU.
Tác động mang lại
Kết quả vượt ra ngoài kỹ thuật:
Thứ tự thuộc tính nhất quán toàn bộ danh mục
Hành vi dự đoán được với các giá trị số nhờ các phương án dự phòng
Kiểm soát kinh doanh qua hệ thống gắn thẻ thủ công
Trang sản phẩm sạch sẽ với bộ lọc trực quan
Tăng độ chính xác của tìm kiếm cho khách hàng
Tăng độ tin cậy và tỷ lệ chuyển đổi
Không chỉ là chiến thắng kỹ thuật – mà còn là chiến thắng kinh doanh.
Những bài học chính
Pipeline lai vượt trội so với AI thuần túy về quy mô lớn. Các giới hạn không phải là rào cản – mà là đặc điểm nổi bật.
Ngữ cảnh là tất cả: Một LLM có thông tin danh mục và metadata chính xác gấp 10 lần so với không có.
Xử lý ngoại tuyến là bắt buộc: Với lượng dữ liệu này, cần hiệu quả theo batch và khả năng chịu lỗi, không phải độ trễ thời gian thực.
Kiểm soát của con người xây dựng niềm tin: Các nhóm chấp nhận AI khi họ có thể kiểm soát.
Vệ sinh dữ liệu là nền tảng: Dữ liệu sạch sẽ = kết quả đáng tin cậy. Luôn luôn.
Kết luận
Chuẩn hóa giá trị thuộc tính nghe có vẻ đơn giản – cho đến khi phải làm điều đó cho hàng triệu sản phẩm trong thời gian thực. Bằng cách kết hợp trí tuệ LLM, quy tắc rõ ràng và kiểm soát thủ công, tôi đã biến một vấn đề cố hữu thành một hệ thống có thể mở rộng.
Đây là lời nhắc nhở: Một số chiến thắng lớn trong Thương mại điện tử không đến từ công nghệ hấp dẫn, mà từ việc giải quyết các vấn đề nhàm chán – những vấn đề ảnh hưởng đến từng trang sản phẩm.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Từ hỗn loạn đến rõ ràng: Cách trí tuệ nhân tạo biến đổi danh mục thương mại điện tử
Trong lĩnh vực Thương mại điện tử, các kỹ thuật viên thường xuyên bàn luận về các vấn đề hạ tầng lớn: kiến trúc tìm kiếm, quản lý kho hàng theo thời gian thực, các hệ thống cá nhân hóa. Tuy nhiên, dưới bề mặt tồn tại một vấn đề phức tạp hơn, ảnh hưởng đến gần như mọi nhà bán lẻ trực tuyến: chuẩn hóa thuộc tính sản phẩm. Một danh mục sản phẩm hỗn loạn với các giá trị không nhất quán về kích thước, màu sắc, chất liệu hoặc thông số kỹ thuật sẽ phá hỏng mọi thứ phía sau – bộ lọc hoạt động không đáng tin cậy, công cụ tìm kiếm mất độ chính xác, việc làm sạch dữ liệu thủ công tiêu tốn nguồn lực.
Là một kỹ sư Full-Stack tại Zoro, tôi hàng ngày đối mặt với vấn đề này: Làm thế nào để đưa trật tự vào hơn 3 triệu SKU, mỗi cái có hàng chục thuộc tính? Câu trả lời không nằm trong một hệ thống AI “hộp đen”, mà trong một hệ thống lai thông minh, kết hợp khả năng suy luận của LLM với các quy tắc rõ ràng và cơ chế kiểm soát thủ công.
Vấn đề quy mô lớn
Nhìn bề ngoài, các sự không nhất quán về thuộc tính có vẻ vô hại. Xem xét các chỉ số kích thước: “XL”, “Small”, “12cm”, “Large”, “M”, “S” – tất cả đều mang ý nghĩa tương tự, nhưng không theo chuẩn nào cả. Với màu sắc cũng vậy: “RAL 3020”, “Crimson”, “Red”, “Dark Red” – có thể là tiêu chuẩn màu (RAL 3020 là một màu đỏ tiêu chuẩn), hoặc là các tên gọi tưởng tượng.
Nhân lên sự hỗn loạn này qua hàng triệu sản phẩm, và tác động sẽ rất lớn:
Phương pháp chiến lược: AI lai kết hợp quy tắc
Mục tiêu của tôi không phải là một hệ thống AI bí ẩn, vận hành như ma thuật đen tối. Thay vào đó, tôi muốn xây dựng một hệ thống:
Kết quả là một pipeline kết hợp trí tuệ LLM với các quy tắc rõ ràng và kiểm soát kinh doanh. AI có giới hạn, chứ không phải AI vô hạn.
Tại sao xử lý ngoại tuyến thay vì thời gian thực?
Quyết định kiến trúc ban đầu là nền tảng: tất cả xử lý thuộc tính diễn ra trong các công việc nền tảng bất đồng bộ, không trong thời gian thực. Điều này nghe có vẻ là một sự thỏa hiệp, nhưng thực ra là một quyết định chiến lược mang lại lợi ích lớn:
Pipeline thời gian thực gây ra:
Công việc ngoại tuyến mang lại:
Việc tách biệt hệ thống khách hàng và xử lý dữ liệu là điều tối quan trọng khi làm việc với lượng dữ liệu này.
Quy trình xử lý
Quy trình diễn ra qua nhiều giai đoạn:
Giai đoạn 1: Làm sạch dữ liệu
Trước khi dùng AI, dữ liệu đi qua bước tiền xử lý:
Bước tưởng chừng đơn giản này đã nâng cao độ chính xác của LLM rõ rệt. Nguyên tắc: rác vào, rác ra. Ở quy mô này, ngay cả lỗi nhỏ cũng gây ra vấn đề lớn sau này.
Giai đoạn 2: Suy luận AI có ngữ cảnh
LLM không chỉ sắp xếp theo bảng chữ cái. Nó suy nghĩ về các giá trị. Dịch vụ nhận:
Với ngữ cảnh này, mô hình hiểu:
Mô hình trả về:
Giai đoạn 3: Các phương án dự phòng xác định
Không phải thuộc tính nào cũng cần AI. Nhiều thuộc tính phù hợp hơn với logic rõ ràng:
Pipeline tự động nhận diện và áp dụng logic xác định. Tiết kiệm chi phí và đảm bảo tính nhất quán.
Giai đoạn 4: Kiểm soát thủ công của nhà bán hàng
Các thuộc tính quan trọng cần có bước kiểm tra thủ công. Vì vậy, mỗi danh mục có thể được đánh dấu:
Hệ thống kép này cung cấp quyền kiểm soát cuối cùng cho con người. Nếu LLM sai, người bán có thể ghi đè – mà không cần dừng pipeline.
Lưu trữ và hệ thống phụ trợ
Tất cả kết quả được lưu trực tiếp vào MongoDB – nguồn dữ liệu duy nhất cho:
Sau đó, dữ liệu được đẩy theo hai hướng:
Bộ lọc giờ đây xuất hiện theo thứ tự hợp lý. Trang sản phẩm hiển thị thông số rõ ràng. Công cụ tìm kiếm xếp hạng chính xác hơn. Khách hàng duyệt qua danh mục dễ dàng hơn.
Kết quả cụ thể
Pipeline biến đổi dữ liệu thô hỗn loạn thành dữ liệu sạch, có thể dùng được:
Sự biến đổi này nhất quán trên hơn 3 triệu SKU.
Tác động mang lại
Kết quả vượt ra ngoài kỹ thuật:
Không chỉ là chiến thắng kỹ thuật – mà còn là chiến thắng kinh doanh.
Những bài học chính
Kết luận
Chuẩn hóa giá trị thuộc tính nghe có vẻ đơn giản – cho đến khi phải làm điều đó cho hàng triệu sản phẩm trong thời gian thực. Bằng cách kết hợp trí tuệ LLM, quy tắc rõ ràng và kiểm soát thủ công, tôi đã biến một vấn đề cố hữu thành một hệ thống có thể mở rộng.
Đây là lời nhắc nhở: Một số chiến thắng lớn trong Thương mại điện tử không đến từ công nghệ hấp dẫn, mà từ việc giải quyết các vấn đề nhàm chán – những vấn đề ảnh hưởng đến từng trang sản phẩm.