Um Comando Ativa Endpoints Privados vLLM a $1.50/Hora

Hugging Face lançou um caminho de um único comando para um servidor de inferência vLLM privado e compatível com OpenAI em sua infraestrutura de Jobs gerenciada. A partir de 26 de junho de 2026, qualquer equipe executando `huggingface_hub >= 1.20.0` pode criar um endpoint com suporte a GPU com uma única chamada `hf jobs run`, cobrada por minuto de acordo com o uso de hardware.

O mecanismo: `hf jobs run` executa `docker run` contra a frota de GPU do HF, puxando a imagem oficial `vllm/vllm-openai` e roteando a porta do container através do proxy de jobs público do HF. Um flavor a10g-large custa $1.50/hora; consulte o menu completo de hardware com `hf jobs hardware`. O tempo de inicialização é normalmente alguns minutos—download de pesos mais inicialização do vLLM. Quando os logs mostram "Application startup complete", o endpoint está ativo. O servidor fala a API de Chat Completions do OpenAI, protegida por um token bearer do HF limitado ao namespace do proprietário do job. Nenhuma solicitação o alcança sem um token válido; a URL é privada por padrão.

Para equipes já executando vLLM, o esforço operacional é mínimo. Adicione `--flavor`, `--expose 8000` e um comando `vllm serve` apontando para qualquer ID de modelo do HF Hub. A URL do job retornada se torna a `base_url` para o cliente Python do OpenAI, com `get_token()` como chave de API. Cancele explicitamente via `hf jobs cancel <job_id>`; a flag `--timeout` atua como proteção de custo.

Este padrão dimensiona para modelos de multicentenas-de-bilhões-de-parâmetros com dois flags. O blog do HF demonstra Qwen3.5-122B-A10B em um flavor two-H200: adicione `--tensor-parallel-size 2` (deve coincidir com contagem de GPU) e defina `--max-model-len 32768 --max-num-seqs 256` para ficar dentro de VRAM. A janela de contexto 256K-token do Qwen3.5-122B esgota a memória nas configurações de batch padrão do vLLM. Um erro OOM ou cache-block na inicialização significa reduzir `--max-model-len` e `--max-num-seqs` antes de solicitar um flavor maior.

HF Jobs visa cargas de trabalho efêmeras—avaliações, geração em lote, testes ad hoc—onde a velocidade de inicialização e encerramento importa mais que garantias de tempo de atividade. A documentação do HF a distingue de Inference Endpoints, que servem cargas de trabalho persistentes de nível de produção com garantias de SLA.

O modelo de proxy gateado por token impõe uma restrição: cada cliente (curl, SDK Python, Gradio UI) deve carregar um token HF válido com acesso de leitura ao namespace do job. Este escopo funciona para ferramentas internas, mas a URL não pode ser entregue a usuários externos ou incorporada em um produto voltado ao público sem uma camada gateway adicional.

Para equipes executando vLLM, HF Jobs remove overhead operacional para cargas de trabalho não-produção. Avaliações e jobs em lote obtêm um endpoint gateado por token, medido por custo, de um único comando sem contratos de infraestrutura necessários.

Sources

Single hf jobs run command deploys a private, OpenAI-compatible vLLM server on HF infrastructure with per-minute billing and no server provisioning required
"Jobs is billed per‑minute by hardware usage"
huggingface.co ↗
An a10g-large GPU flavor costs $1.50/hour; full hardware pricing is available via hf jobs hardware
"An a10g-large runs at $1.50/hour — check hf jobs hardware for the full price list and pick the smallest flavor that fits your model."
huggingface.co ↗
hf jobs run is effectively docker run for HF infrastructure using the official vllm/vllm-openai image, with --expose routing the container port through HF's public jobs proxy
"hf jobs run is docker run for HF infrastructure. We use the official vllm/vllm-openai image, ask for a GPU with --flavor, and expose vLLM's port with --expose"
huggingface.co ↗
Every request must carry an HF token with read access to the job's namespace; the endpoint is gated, not public
"The endpoint is gated, not public. Every request must carry an HF token with read access to the job's namespace."
huggingface.co ↗
Qwen3.5-122B-A10B can be deployed on a 2×H200 flavor using --tensor-parallel-size 2 with --max-model-len 32768 --max-num-seqs 256 to stay within VRAM
"hf jobs run --flavor h200x2 --expose 8000 --timeout 2h vllm/vllm-openai:latest vllm serve Qwen/Qwen3.5-122B-A10B --host 0.0.0.0 --port 8000 --tensor-parallel-size 2 --max-model-len 32768 --max-num-seqs 256"
huggingface.co ↗
Qwen3.5-122B defaults to a 256K-token context window which exhausts VRAM at vLLM's default batch settings; capping max-model-len and max-num-seqs is the first remediation step for OOM errors
"Qwen3.5-122B is a hybrid Mamba/attention architecture with a 256K-token default context, which doesn't leave enough memory for vLLM's default batch settings."
huggingface.co ↗
HF Jobs targets ephemeral workloads (evals, batch generation, tests); HF Inference Endpoints remains the offering for persistent, production-grade serving
"If you're after a managed, production-ready service instead, that's what Inference Endpoints are for"
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology

Um Comando Ativa Endpoints Privados vLLM a $1.50/Hora

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.