Un Comando Activa Endpoints Privados vLLM a $1.50/Hora

Hugging Face integra vLLM en su servicio Jobs administrado, permitiendo que los equipos implementen servidores de inferencia open-weights listos para producción con un único comando. El movimiento elimina fricciones operativas para equipos comprometidos con la implementación de modelos de código abierto.

Hugging Face lanzó un camino de un único comando hacia un servidor de inferencia vLLM privado y compatible con OpenAI en su infraestructura Jobs administrada. A partir del 26 de junio de 2026, cualquier equipo ejecutando `huggingface_hub >= 1.20.0` puede desplegar un endpoint respaldado por GPU con una única llamada `hf jobs run` facturada por minuto según el uso de hardware.

El mecanismo: `hf jobs run` ejecuta `docker run` contra la flota de GPU del HF, extrayendo la imagen oficial `vllm/vllm-openai` y enrutando el puerto del contenedor a través del proxy de jobs público del HF. Un flavor a10g-large cuesta $1.50/hora; consulta el menú completo de hardware con `hf jobs hardware`. El tiempo de arranque es típicamente algunos minutos—descarga de pesos más inicio de vLLM. Cuando los logs muestren "Application startup complete", el endpoint está activo. El servidor habla la API OpenAI Chat Completions, protegido por un token bearer del HF limitado al espacio de nombres del propietario del job. Ninguna solicitud lo alcanza sin un token válido; la URL es privada por defecto.

Para equipos que ya ejecutan vLLM, el esfuerzo operativo es mínimo. Añade `--flavor`, `--expose 8000` y un comando `vllm serve` apuntando a cualquier ID de modelo del Hub de HF. La URL del job devuelta se convierte en la `base_url` para el cliente Python de OpenAI, con `get_token()` como clave API. Cancela explícitamente mediante `hf jobs cancel <job_id>`; la bandera `--timeout` actúa como salvaguarda de costos.

Este patrón se escala a modelos de cientos-de-miles-de-millones de parámetros con dos banderas. El blog de HF demuestra Qwen3.5-122B-A10B en un flavor two-H200: añade `--tensor-parallel-size 2` (debe coincidir con el número de GPU) y establece `--max-model-len 32768 --max-num-seqs 256` para mantenerse dentro de VRAM. La ventana de contexto 256K-token de Qwen3.5-122B agota la memoria con los parámetros de lote por defecto de vLLM. Un error OOM o cache-block al iniciarse significa reducir `--max-model-len` y `--max-num-seqs` antes de solicitar un flavor más grande.

HF Jobs apunta a cargas de trabajo efímeras—evaluaciones, generación por lotes, pruebas ad hoc—donde la velocidad de inicio y parada importan más que garantías de disponibilidad. La documentación del HF lo distingue de Inference Endpoints, que sirven cargas de trabajo persistentes de nivel productivo con garantías de SLA.

El modelo de proxy controlado por token impone una restricción: cada cliente (curl, SDK de Python, Gradio UI) debe llevar un token HF válido con acceso de lectura al espacio de nombres del job. Este alcance funciona para herramientas internas, pero la URL no puede ser entregada a usuarios externos o incrustada en un producto de cara al público sin una capa de puerta de enlace adicional.

Para equipos que ejecutan vLLM, HF Jobs elimina la sobrecarga operativa para cargas de trabajo que no son de producción. Las evaluaciones y los trabajos por lotes obtienen un endpoint controlado por token, medido por costo, de un único comando sin requerir contratos de infraestructura.

Sources

Single hf jobs run command deploys a private, OpenAI-compatible vLLM server on HF infrastructure with per-minute billing and no server provisioning required
"Jobs is billed per‑minute by hardware usage"
huggingface.co ↗
An a10g-large GPU flavor costs $1.50/hour; full hardware pricing is available via hf jobs hardware
"An a10g-large runs at $1.50/hour — check hf jobs hardware for the full price list and pick the smallest flavor that fits your model."
huggingface.co ↗
hf jobs run is effectively docker run for HF infrastructure using the official vllm/vllm-openai image, with --expose routing the container port through HF's public jobs proxy
"hf jobs run is docker run for HF infrastructure. We use the official vllm/vllm-openai image, ask for a GPU with --flavor, and expose vLLM's port with --expose"
huggingface.co ↗
Every request must carry an HF token with read access to the job's namespace; the endpoint is gated, not public
"The endpoint is gated, not public. Every request must carry an HF token with read access to the job's namespace."
huggingface.co ↗
Qwen3.5-122B-A10B can be deployed on a 2×H200 flavor using --tensor-parallel-size 2 with --max-model-len 32768 --max-num-seqs 256 to stay within VRAM
"hf jobs run --flavor h200x2 --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3.5-122B-A10B --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 --max-model-len 32768 --max-num-seqs 256"
huggingface.co ↗
Qwen3.5-122B defaults to a 256K-token context window which exhausts VRAM at vLLM's default batch settings; capping max-model-len and max-num-seqs is the first remediation step for OOM errors
"Qwen3.5-122B is a hybrid Mamba/attention architecture with a 256K-token default context, which doesn't leave enough memory for vLLM's default batch settings."
huggingface.co ↗
HF Jobs targets ephemeral workloads (evals, batch generation, tests); HF Inference Endpoints remains the offering for persistent, production-grade serving
"If you're after a managed, production-ready service instead, that's what Inference Endpoints are for"
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology

Un Comando Activa Endpoints Privados vLLM a $1.50/Hora

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.