Hugging Face envía vLLM en HF Jobs: endpoint LLM compatible con OpenAI en un comando
Hugging Face lanzó vLLM en HF Jobs, un servicio de inferencia sin servidor que permite a los desarrolladores girar un endpoint LLM privado compatible con OpenAI en la infraestructura Hugging Face con un único comando CLI. Sin Kubernetes, sin aprovisionamiento de servidores—solo hf jobs run --flavor a10g-large --expose 8000, elija un modelo (Qwen, Llama, Mistral, etc.) y obtenga un endpoint en vivo en segundos. La facturación es por minuto de uso de hardware, pagada en crédito prepago.
La integración elimina fricción para la implementación del modelo. Los desarrolladores pueden consultar endpoints desde una laptop, notebook o en cualquier lugar a través de bibliotecas estándar de clientes OpenAI (pase la URL del trabajo como base_url). La compatibilidad SSH le permite acceder por shell a trabajos en ejecución para depuración, inspección de memoria de GPU y cola de registros—experiencia de operaciones familiar sin gastos generales de contenedor. Se admite paralelismo de tensor; --tensor-parallel-size distribuye modelos en múltiples GPU para modelos más grandes o mayor rendimiento. Los sabores varían desde GPU A10G hasta pares H200 para mixture-of-experts como Qwen 3.5-122B.
Para implementación en producción, esto compite con plataformas de inferencia dedicadas (Together, Anyscale, Replicate) pero mantiene el desarrollador dentro del ecosistema Hugging Face—autenticación Hub, importación de modelo nativa y activos de comunidad existentes. Los arquitectos que evalúan inferencia de borde, generación por lotes o API LLM internas deben probar esto; el precio y los SLA de latencia importan más que la velocidad de implementación en sí. Esté atento a las protecciones empresariales (límite de velocidad, controles de acceso, registros de auditoría) conforme más organizaciones se mudan de notebooks a infraestructura compartida.
Fuentes
- Primary source
- huggingface.co
“You can spin up a private, OpenAI-compatible LLM endpoint on Hugging Face infrastructure with a single command — no servers to provision, no Kubernetes, pay-per-second.”