Uber Eats Reduce Feature Staleness de 24 Horas a Segundos Con Ranking Listwise

Uber reconstruyó su ranking de restaurantes de scoring pointwise a optimización listwise, integrando señales de demanda en vivo y contexto de sesión del usuario. Ángulo arquitectónico: ranking listwise (LTR) reduce el costo de inferencia del reranker versus scoring por ítem, y la actualización de señales en tiempo real es un triunfo de deployment — vale la pena estudiar si estás diseñando stacks de ranking multi-stage.

Uber Eats reemplazó su ranker DeepCVR pointwise con un modelo generativo listwise que califica un conjunto completo de candidatos en un forward pass único. También redujo feature staleness de 24 horas a segundos. Staff ML Engineer Yicheng Chen y colegas detalló los cambios en el blog de ingeniería de Uber.

La arquitectura anterior calificaba un comerciante por llamada de inferencia. El nuevo modelo Generative Recommender ingiere un array de tiendas candidatas y produce scores clasificados para todas en un pass único. Esto reduce el compute por tienda a aproximadamente 1/T del original, donde T es el número de tiendas objetivo. En tamaños típicos de candidate set, esa es una reducción de un orden de magnitud en la carga de inferencia del ranker.

El modelo es un híbrido dual-path. Un path DCNv2 maneja features escasas de alta dimensionalidad y estadísticas densas de comerciante. Un segundo path ejecuta un transformer-based sequence encoder sobre un registro cronológico de acciones del usuario usando multi-head self-attention. Los dos paths se fusionan antes de la calificación final, con la tienda objetivo anexada a la secuencia del usuario para que el transformer modele la relación entre comportamiento pasado y el candidato específico.

La capa de feature en tiempo real se ejecuta en una plataforma interna llamada Next Personalization Platform. FeatureExtractors — funciones Java puras — se invocan por un servicio de Feature Store en línea. Los mismos FeatureExtractors se reproducen offline vía Apache Spark para generar datos de entrenamiento, imponiendo online-offline parity. La actualización de features mejoró de retraso en batch de 24 horas a unos pocos segundos.

Los usuarios cold-start vieron las ganancias más grandes. Los vectores de feature anteriores eran escasos u obsoletos; la actualización subsecond significa que un clic único en la sesión actual remodela la clasificación antes de la carga de página. El equipo ejecuta monitoreo continuo vía sampled feature logging para detectar drift antes de degradar la calidad del modelo.

Uber no divulgó latencias p50/p99 para el transformer encoder en serving, tamaño de la flota GPU, números de A/B test lift (órdenes por usuario, click-through rate, GMV), o comparación de costo-por-inferencia entre modelos viejos y nuevos. El argumento de eficiencia listwise es matemáticamente sólido pero números de producción empíricos lo validarían en otras escalas.

Agregar un transformer sequence encoder al serving hot path introduce latencia variable vinculada a sequence length. La complejidad de attention escala cuadráticamente con sequence length a menos que esté masked o truncated. Uber no describe el sequence length cap, estrategia de masking, o manejo de usuarios con historiales muy largos sin explotar presupuestos de latencia.

El patrón más portable aquí: el modelo de parity del FeatureExtractor — una función Java llamada idénticamente en Feature Store en línea y replay Apache Spark offline. Si tu equipo mantiene lógica de feature separada para entrenamiento y serving, ese es donde fuga la calidad del modelo.

Sources

Listwise GenRec model scores an array of candidate stores in a single forward pass, reducing per-store compute to roughly 1/T of the original model
"This allows the model to generate scores for an entire list of merchants in a single forward pass, significantly improving training and serving efficiency by reducing the complexity per store to roughly 1/T of the original model (where T is the number of target stores)."
uber.com ↗
The hybrid model uses a DCNv2 path for sparse/dense features and a transformer-based sequence encoder with multi-head self-attention
"DLRM/DCNv2 path. This path continues to handle the high-dimensional sparse features and dense statistics that represent the steady-state preferences of Uber Eats users and the characteristics of merchants. Sequence path. We ingest a chronological log of Uber Eats user actions—including clicks and orders—and process them through multi-head self-attention layers."
uber.com ↗
Target-aware training appends the target store to the user sequence before encoding, inspired by DIN and BST
"Instead of encoding the Uber Eats user sequence in isolation, we append the target store (the merchant we're currently scoring) to the sequence. This allows the transformer to compute the direct relationship between past behavior and the specific candidate merchant, a technique inspired by industry benchmarks like DIN and BST."
uber.com ↗
FeatureExtractors are pure Java functions used identically in online Feature Store and replayed offline via Apache Spark to prevent training-serving skew
"The features are computed using FeatureExtractors, which are pure Java functions invoked by the online Feature Store service. For training data generation, we use an Apache Spark™ job to reconstruct the UserContext at past inference timestamps and invoke the same FeatureExtractors to generate the required features. This guarantees that the features used for training are identical to those computed during live inference."
uber.com ↗
Feature freshness reduced from 24 hours to seconds, with cold-start users identified as the biggest beneficiary
"We have now reduced the data lag from days to a few seconds, enabling the model to incorporate an Uber Eats user's most recent interactions within the same session. This shift has proven particularly transformative for our most challenging user segments, such as cold-start users with little to no historical data on the platform."
uber.com ↗
Uber runs continuous monitoring via sampled feature logging comparing live outputs against offline re-computations
"We employ continuous monitoring via sampled feature logging, comparing live outputs against offline re-computations to ensure our feature consistency."
uber.com ↗
Feature freshness cut from 24 hours to seconds via near-real-time UserContext platform
"Leveraging near real-time user sequence features and a Generative Recommender-style model to power Uber Eats Home Feed recommendations and evolved the homefeed ranking from hand-crafted statistical features to transformer-based sequence modeling, cut feature freshness from 24 hours to seconds."
infoq.com ↗
The updated system is deployed on Uber Eats homepage feeds and discovery surfaces
"It is deployed within the Uber Eats platform to support homepage feeds and discovery surfaces."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Uber Eats Reduce Feature Staleness de 24 Horas a Segundos Con Ranking Listwise

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.