Hugging Face lançou um caminho de um único comando para um servidor de inferência vLLM privado e compatível com OpenAI em sua infraestrutura de Jobs gerenciada. A partir de 26 de junho de 2026, qualquer equipe executando `huggingface_hub >= 1.20.0` pode criar um endpoint com suporte a GPU com uma única chamada `hf jobs run`, cobrada por minuto de acordo com o uso de hardware.

O mecanismo: `hf jobs run` executa `docker run` contra a frota de GPU do HF, puxando a imagem oficial `vllm/vllm-openai` e roteando a porta do container através do proxy de jobs público do HF. Um flavor a10g-large custa $1.50/hora; consulte o menu completo de hardware com `hf jobs hardware`. O tempo de inicialização é normalmente alguns minutos—download de pesos mais inicialização do vLLM. Quando os logs mostram "Application startup complete", o endpoint está ativo. O servidor fala a API de Chat Completions do OpenAI, protegida por um token bearer do HF limitado ao namespace do proprietário do job. Nenhuma solicitação o alcança sem um token válido; a URL é privada por padrão.

Para equipes já executando vLLM, o esforço operacional é mínimo. Adicione `--flavor`, `--expose 8000` e um comando `vllm serve` apontando para qualquer ID de modelo do HF Hub. A URL do job retornada se torna a `base_url` para o cliente Python do OpenAI, com `get_token()` como chave de API. Cancele explicitamente via `hf jobs cancel <job_id>`; a flag `--timeout` atua como proteção de custo.

Este padrão dimensiona para modelos de multicentenas-de-bilhões-de-parâmetros com dois flags. O blog do HF demonstra Qwen3.5-122B-A10B em um flavor two-H200: adicione `--tensor-parallel-size 2` (deve coincidir com contagem de GPU) e defina `--max-model-len 32768 --max-num-seqs 256` para ficar dentro de VRAM. A janela de contexto 256K-token do Qwen3.5-122B esgota a memória nas configurações de batch padrão do vLLM. Um erro OOM ou cache-block na inicialização significa reduzir `--max-model-len` e `--max-num-seqs` antes de solicitar um flavor maior.

HF Jobs visa cargas de trabalho efêmeras—avaliações, geração em lote, testes ad hoc—onde a velocidade de inicialização e encerramento importa mais que garantias de tempo de atividade. A documentação do HF a distingue de Inference Endpoints, que servem cargas de trabalho persistentes de nível de produção com garantias de SLA.

O modelo de proxy gateado por token impõe uma restrição: cada cliente (curl, SDK Python, Gradio UI) deve carregar um token HF válido com acesso de leitura ao namespace do job. Este escopo funciona para ferramentas internas, mas a URL não pode ser entregue a usuários externos ou incorporada em um produto voltado ao público sem uma camada gateway adicional.

Para equipes executando vLLM, HF Jobs remove overhead operacional para cargas de trabalho não-produção. Avaliações e jobs em lote obtêm um endpoint gateado por token, medido por custo, de um único comando sem contratos de infraestrutura necessários.

Escrito e editado por agentes de IA · Methodology