从混乱到清晰:人工智能如何改变电子商务目录

在电子商务领域,技术人员常常讨论庞大的基础设施问题:搜索架构、实时库存管理、个性化推荐系统。然而,在表面之下隐藏着一个更具隐患的问题,几乎困扰每个在线商家:产品属性的标准化。一个杂乱无章的产品目录,尺寸、颜色、材质或技术规格值不一致,破坏了后续的一切——过滤器变得不可靠,搜索引擎的准确性下降,手动数据清洗消耗大量资源。

作为Zoro的全栈工程师,我每天都在应对这个问题:如何在超过300万SKU中整理出秩序,每个SKU都拥有数十个属性?答案并不在黑箱AI中,而在于一个智能混合系统,将LLM的思维能力与明确的业务规则和人工控制机制结合起来。

大规模问题

表面上看,属性不一致似乎无关紧要。以尺寸为例:“XL”、“Small”、“12cm”、“Large”、“M”、“S”——都意味着相同,但没有标准化。颜色也是类似:”RAL 3020“、”Crimson“、”Red“、”Dark Red“——部分是颜色标准(RAL 3020是一种规范的红色),部分是虚构的名称。

将这种混乱扩展到数百万产品,影响变得十分显著:

  • 客户看到混乱的过滤器,放弃搜索
  • 搜索引擎无法正确排名产品
  • 分析结果显示错误的趋势
  • 商家团队陷入手动数据清洗的泥潭

战略方法:规则驱动的混合AI

我的目标不是开发一个神秘的黑魔法AI系统,而是要建立一个:

  • 可解释的——能理解为何做出某个决策
  • 可预测的——没有意外故障或异常
  • 可扩展的——覆盖数百万属性
  • 可人为控制的——业务团队可以干预

最终设计出一条结合LLM智能、明确规则和业务控制的管道。AI有“护栏”,而非无边界的黑箱。

为什么采用离线处理而非实时?

最初的架构决策至关重要:所有属性处理都在异步后台任务中进行,而非实时。这看似妥协,但实际上是战略性选择,带来巨大优势:

实时管道可能导致:

  • 产品页面延迟不可预料
  • 系统间依赖脆弱
  • 流量高峰时成本激增
  • 直接影响用户体验

离线任务则提供:

  • 高吞吐:批量处理,影响不到实时系统
  • 稳定性:处理错误不会影响客户
  • 成本控制:在流量低谷时进行计算
  • 隔离:LLM延迟与面向用户的服务隔离
  • 原子更新:确保变更一致或不变

将客户系统与数据处理分离,是应对海量数据的关键。

处理流程

整个流程分为多个阶段:

阶段1:数据清洗

在引入AI之前,先经过预处理:

  • 去除空白字符
  • 删除空值
  • 去重
  • 将类别路径转为结构化字符串

这个看似简单的步骤极大提升了LLM的准确性。原则是:垃圾输入,垃圾输出。在这个规模下,微小的错误也会引发巨大问题。

阶段2:带上下文的AI推理

LLM不只是按字母排序,而是理解值的含义。服务端提供:

  • 清洗后的属性值
  • 类别面包屑(如“电动工具 > 钻机”)
  • 属性元数据

借助这些上下文,模型能理解:

  • “电压”应按数值排序
  • “尺寸”遵循已知的递进关系(S、M、L、XL)
  • “颜色”可能遵循标准如RAL 3020
  • “材质”具有语义关系(钢材 > 不锈钢 > 碳钢)

模型返回:

  • 排序的属性值
  • 改进的属性名
  • 分类:应为确定性排序还是依赖上下文?

阶段3:确定性回退

不是所有属性都需要AI。有些属性用明确逻辑处理更好:

  • 数值范围(2cm、5cm、12cm、20cm→升序排序)
  • 单位值
  • 分类集合

管道自动识别这些,并应用确定性逻辑。节省成本,确保一致性。

阶段4:商家控制

关键属性需要人工审核。每个类别可以标记:

  • LLM_SORT:模型决定
  • MANUAL_SORT:由商家定义顺序

这个双重系统赋予人工最终控制权。若模型出错,商家可以覆盖——无需中断流程。

存储与后续系统

所有结果直接存入MongoDB,作为唯一“真相源”:

  • 排序的属性值
  • 改进的属性名
  • 类别级别的排序标签
  • 产品级别的排序顺序

之后,数据流向两个系统:

  • Elasticsearch:关键词搜索,依赖干净的属性过滤菜单
  • Vespa:语义和向量搜索,提升排名一致性

过滤器现在按逻辑顺序出现。产品页面显示连贯的规格。搜索引擎排名更精准。客户在类别中导航时更顺畅。

具体成果

管道将混乱的原始数据转化为干净、可用的输出:

属性 原始数据 排序输出
尺寸 XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
颜色 RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020
材质 Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
数值 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

在超过300万SKU中,这一转变保持了一致性。

影响

成果远超技术层面:

  • 属性排序一致性:整个目录统一
  • 可预测性:数值排序由确定性回退保证
  • 业务控制:通过人工标签系统
  • 干净的产品页面:直观的过滤
  • 搜索相关性提升
  • 客户信任度和转化率提高

不仅是技术胜利,更是商业胜利。

关键经验

  • 混合管道优于纯AI:规则护栏不是障碍,而是优势
  • 上下文至关重要:带类别信息和属性元数据的LLM,准确率提升10倍
  • 离线处理不可或缺:面对海量数据,批量效率和容错优先
  • 人工干预建立信任:团队愿意接受AI,前提是能控制
  • 数据清洁是基础:干净的输入带来可靠的输出——必须始终坚持

结论

将属性值标准化听起来很简单——直到你需要为数百万产品实时完成。通过结合LLM智能、明确规则和人工控制,我将一个隐藏的、顽固的问题转变为可扩展的系统。

这提醒我们:在电商中取得巨大成功的技术,不一定是炫酷的创新,而是解决那些乏味但关键的问题——每个产品页面都离不开的那些。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)