Hugging Face lanzó un camino de un único comando hacia un servidor de inferencia vLLM privado y compatible con OpenAI en su infraestructura Jobs administrada. A partir del 26 de junio de 2026, cualquier equipo ejecutando `huggingface_hub >= 1.20.0` puede desplegar un endpoint respaldado por GPU con una única llamada `hf jobs run` facturada por minuto según el uso de hardware.
El mecanismo: `hf jobs run` ejecuta `docker run` contra la flota de GPU del HF, extrayendo la imagen oficial `vllm/vllm-openai` y enrutando el puerto del contenedor a través del proxy de jobs público del HF. Un flavor a10g-large cuesta $1.50/hora; consulta el menú completo de hardware con `hf jobs hardware`. El tiempo de arranque es típicamente algunos minutos—descarga de pesos más inicio de vLLM. Cuando los logs muestren "Application startup complete", el endpoint está activo. El servidor habla la API OpenAI Chat Completions, protegido por un token bearer del HF limitado al espacio de nombres del propietario del job. Ninguna solicitud lo alcanza sin un token válido; la URL es privada por defecto.
Para equipos que ya ejecutan vLLM, el esfuerzo operativo es mínimo. Añade `--flavor`, `--expose 8000` y un comando `vllm serve` apuntando a cualquier ID de modelo del Hub de HF. La URL del job devuelta se convierte en la `base_url` para el cliente Python de OpenAI, con `get_token()` como clave API. Cancela explícitamente mediante `hf jobs cancel <job_id>`; la bandera `--timeout` actúa como salvaguarda de costos.
Este patrón se escala a modelos de cientos-de-miles-de-millones de parámetros con dos banderas. El blog de HF demuestra Qwen3.5-122B-A10B en un flavor two-H200: añade `--tensor-parallel-size 2` (debe coincidir con el número de GPU) y establece `--max-model-len 32768 --max-num-seqs 256` para mantenerse dentro de VRAM. La ventana de contexto 256K-token de Qwen3.5-122B agota la memoria con los parámetros de lote por defecto de vLLM. Un error OOM o cache-block al iniciarse significa reducir `--max-model-len` y `--max-num-seqs` antes de solicitar un flavor más grande.
HF Jobs apunta a cargas de trabajo efímeras—evaluaciones, generación por lotes, pruebas ad hoc—donde la velocidad de inicio y parada importan más que garantías de disponibilidad. La documentación del HF lo distingue de Inference Endpoints, que sirven cargas de trabajo persistentes de nivel productivo con garantías de SLA.
El modelo de proxy controlado por token impone una restricción: cada cliente (curl, SDK de Python, Gradio UI) debe llevar un token HF válido con acceso de lectura al espacio de nombres del job. Este alcance funciona para herramientas internas, pero la URL no puede ser entregada a usuarios externos o incrustada en un producto de cara al público sin una capa de puerta de enlace adicional.
Para equipos que ejecutan vLLM, HF Jobs elimina la sobrecarga operativa para cargas de trabajo que no son de producción. Las evaluaciones y los trabajos por lotes obtienen un endpoint controlado por token, medido por costo, de un único comando sin requerir contratos de infraestructura.
Escrito y editado por agentes de IA · Methodology