De caos a claridad: Cómo la inteligencia artificial transforma los catálogos de comercio electrónico

En el comercio electrónico, los técnicos suelen hablar frecuentemente de grandes problemas de infraestructura: arquitectura de búsqueda, gestión de inventario en tiempo real, máquinas de personalización. Pero bajo la superficie se esconde un problema más insidioso que afecta a casi todos los minoristas en línea: la normalización de atributos de productos. Un catálogo caótico con valores inconsistentes para tamaño, color, material o especificaciones técnicas sabotea todo lo que viene después: los filtros funcionan de manera poco fiable, los motores de búsqueda pierden precisión, la limpieza manual de datos consume recursos.

Como ingeniero full-stack en Zoro, me enfrentaba a diario a este problema: ¿Cómo poner orden en más de 3 millones de SKUs, cada uno con decenas de atributos? La respuesta no residía en una caja negra de IA, sino en un sistema híbrido inteligente que combina la capacidad de razonamiento de LLM con reglas claras de negocio y mecanismos de control manual.

El problema a gran escala

A simple vista, las incoherencias en atributos parecen inofensivas. Pensemos en las medidas: “XL”, “Small”, “12cm”, “Large”, “M”, “S” — todo significa lo mismo, pero nada está estandarizado. En cuanto a colores, la situación es similar: “RAL 3020”, “Crimson”, “Red”, “Dark Red” — en algunos casos, estándares de color como (RAL 3020 es un rojo normativo), en otros, nombres de fantasía.

Multiplica esta desorganización por millones de productos, y los efectos son dramáticos:

  • Los clientes ven filtros caóticos y abandonan la búsqueda
  • Los motores de búsqueda no pueden clasificar correctamente los productos
  • Los análisis muestran tendencias erróneas
  • Los equipos de merchandising se ahogan en limpieza manual de datos

Enfoque estratégico: IA híbrida con reglas

Mi objetivo no era un sistema de IA misterioso que practique magia negra. Quería un sistema que:

  • Sea explicable — se entienda por qué se tomó una decisión
  • Funcione de forma predecible — sin fallos o anomalías sorpresivas
  • Escale — más allá de millones de atributos
  • Permita control humano — los equipos de negocio puedan intervenir

El resultado fue una pipeline que combina la inteligencia de LLM con reglas claras y control de negocio. IA con límites, no IA sin fronteras.

¿Por qué procesamiento offline en lugar de en tiempo real?

La primera decisión arquitectónica fue fundamental: toda la procesamiento de atributos se realiza en trabajos asíncronos en segundo plano, no en tiempo real. Parece un compromiso, pero fue una decisión estratégica con enormes ventajas:

Las pipelines en tiempo real habrían causado:

  • Latencias impredecibles en las páginas de producto
  • Dependencias frágiles entre sistemas
  • Costes elevados en picos de tráfico
  • Impacto directo en la experiencia del cliente

En cambio, los trabajos offline ofrecían:

  • Alto rendimiento: lotes masivos sin afectar el sistema en vivo
  • Robustez: errores de procesamiento nunca afectan al cliente
  • Control de costes: realizar cálculos en momentos de baja carga
  • Aislamiento: la latencia de LLM está aislada de los servicios orientados al usuario
  • Actualizaciones atómicas: cambios consistentes o ninguno

Separar los sistemas de cliente y procesamiento de datos es esencial cuando se trabaja con esta cantidad de datos.

La pipeline de procesamiento

El proceso se dividía en varias fases:

Fase 1: Limpieza de datos

Antes incluso de usar IA, los datos pasaban por un paso previo:

  • Recortar espacios en blanco
  • Eliminar valores vacíos
  • Deduplciar duplicados
  • Convertir el contexto de categoría en cadenas estructuradas

Este paso aparentemente trivial mejoraba dramáticamente la precisión del LLM. La regla: basura entra, basura sale. A esta escala, pequeños errores más adelante generan grandes problemas.

Fase 2: Razonamiento con IA y contexto

El LLM no solo ordenaba alfabéticamente. Pensaba en los valores. El servicio recibía:

  • Valores de atributos limpios
  • Breadcrumbs de categoría (por ejemplo, “Herramientas eléctricas > Taladros”)
  • Metadatos de atributos

Con este contexto, el modelo podía entender:

  • Que “tensión” en herramientas eléctricas debe ordenarse numéricamente
  • Que “tamaño” sigue una progresión conocida (S, M, L, XL)
  • Que “color” puede seguir estándares como RAL 3020
  • Que “material” tiene relaciones semánticas (Acero > Acero inoxidable > Acero al carbono)

El modelo devolvía:

  • Valores de atributos ordenados
  • Nombres de atributos refinados
  • Una clasificación: ¿debería ordenarse de forma determinista o contextual?

Fase 3: FallBacks deterministas

No todos los atributos necesitan IA. Muchos se gestionan mejor con lógica clara:

  • Rangos numéricos (2cm, 5cm, 12cm, 20cm → orden ascendente)
  • Valores con unidades
  • Colecciones categóricas

La pipeline detectaba automáticamente estos casos y aplicaba lógica determinista. Ahorraba costes y garantizaba coherencia.

Fase 4: Control manual por parte del comerciante

Atributos críticos requerían revisión manual. Por eso, cada categoría podía marcarse como:

  • LLM_SORT: el modelo decide
  • MANUAL_SORT: el comerciante define el orden

Este sistema dual daba la última palabra a los humanos. Si el LLM cometía un error, los comerciantes podían sobreescribirlo sin detener toda la pipeline.

Persistencia y sistemas posteriores

Todos los resultados se almacenaban directamente en MongoDB — una única fuente de verdad para:

  • Orden de atributos
  • Nombres refinados
  • Etiquetas de orden por categoría
  • Orden en nivel de producto

Luego, los datos se integraban en dos direcciones:

  • Elasticsearch: para búsqueda por palabras clave, donde los filtros limpios impulsan menús
  • Vespa: para búsqueda semántica y basada en vectores, donde la coherencia mejora el ranking

Los filtros ahora aparecen en orden lógico. Las páginas muestran especificaciones coherentes. Los buscadores clasifican con mayor precisión. Los clientes navegan sin frustración.

Resultados concretos

La pipeline transformó datos crudos caóticos en salidas limpias y utilizables:

Atributo Datos crudos Salida ordenada
Tamaño XL, Small, 12cm, Large, M, S Small, M, Large, XL, 12cm
Color RAL 3020, Crimson, Red, Dark Red Red, Dark Red, Crimson, RAL 3020
Material Steel, Carbon Steel, Stainless, Stainless Steel Steel, Stainless Steel, Carbon Steel
Numérico 5cm, 12cm, 2cm, 20cm 2cm, 5cm, 12cm, 20cm

Esta transformación fue consistente en más de 3 millones de SKUs.

Impacto y resultados

Los efectos fueron mucho más allá de lo técnico:

  • Orden coherente de atributos en todo el catálogo
  • Comportamiento predecible en valores numéricos gracias a los fallbacks
  • Control de negocio mediante etiquetado manual
  • Páginas limpias con filtros intuitivos
  • Mejora en relevancia de búsqueda para los clientes
  • Mayor confianza y mejores tasas de conversión

No solo fue un éxito técnico, sino un triunfo comercial.

Conclusiones clave

  • Las pipelines híbridas superan a la IA pura a gran escala. Las reglas no son un obstáculo, son una ventaja.
  • El contexto lo es todo: un LLM con información de categoría y metadatos es 10 veces más preciso que uno sin ello.
  • El procesamiento offline es esencial: con esta cantidad de datos, se requiere eficiencia en batch y tolerancia a errores, no latencia en tiempo real.
  • El control humano genera confianza: los equipos aceptan la IA cuando pueden controlarla.
  • La higiene de datos es la base: entradas limpias = salidas confiables. Siempre.

Conclusión

Normalizar atributos puede parecer trivial — hasta que hay que hacerlo en millones de productos en tiempo real. Combinando la inteligencia de LLM, reglas claras y control humano, convertí un problema oculto y persistente en un sistema escalable.

Es un recordatorio: algunos de los grandes logros en e-commerce no vienen de tecnologías llamativas, sino de resolver los problemas aburridos — aquellos que afectan cada página de producto.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)