Tether lanza QVAC con fine-tuning de LLM on-device y pagos en cripto

Tether, la empresa detrás de USDT, ha lanzado QVAC — un SDK de IA open-source y local-first que ejecuta inferencia de LLM, fine-tuning, voz, traducción y generación de imágenes completamente on-device en Linux, macOS, Windows, Android e iOS, sin ninguna dependencia de la nube.

La plataforma tiene tres componentes. Fabric LLM es un motor de inferencia agnóstico de hardware construido sobre la API gráfica Vulkan, lo que lo hace independiente del fabricante de GPU. Tether afirma que es el primer framework en soportar fine-tuning LoRA de large language models directamente en dispositivos móviles — una capacidad que hasta ahora se consideraba restringida a cómputo en centros de datos. Genesis es un dataset sintético de preentrenamiento de 148 mil millones de tokens, que cubre dominios de STEM y lógica, publicado para que los desarrolladores puedan entrenar modelos independientes sin depender de datos propietarios. La tercera capa, un Wallet Development Kit (WDK), permite que agentes de IA transaccionen de forma autónoma en Bitcoin y USDt sin intermediarios de pago — un puente explícito entre IA de borde y rieles de pago en cripto.

El SDK es nativo en JavaScript y TypeScript, instalable con un solo comando npm (npm install @qvac/sdk), y funciona en Node.js, el runtime Bare y Expo para móvil. La API unificada cubre completado de LLM, embeddings de texto, traducción automática neuronal vía Bergamot, reconocimiento automático de voz vía Whisper.cpp o NVIDIA Parakeet, text-to-speech vía ONNX Runtime, OCR, generación de imágenes vía un backend de stable-diffusion, inferencia multimodal y generación aumentada por recuperación — todo desde la misma interfaz, sin cambios de código entre plataformas. El SDK también expone una API HTTP compatible con OpenAI, de modo que las toolchains existentes dirigidas al spec de OpenAI pueden apuntar a un servidor QVAC local sin modificaciones.

La incorporación más significativa desde el punto de vista operativo para arquitectos enterprise es la capa de delegación de inferencia P2P, construida sobre la pila de red Holepunch. Los nodos pueden delegar inferencia a pares mediante blind relays con traversal de NAT — un modelo estilo BitTorrent para compartir cómputo dentro de una flota privada, sin endpoint de inferencia centralizado. Esto aborda directamente el riesgo de concentración en la nube: una organización cuyos flujos de trabajo de IA dependen de un único proveedor de API opera una arquitectura de punto único de falla. QVAC distribuye la inferencia en el borde, haciéndola resiliente a interrupciones, límites de tasa y dependencia de proveedor.

La publicación del dataset Genesis tiene implicaciones independientes para los sectores sensibles al cumplimiento normativo. Las empresas de servicios financieros, salud y defensa que no pueden enviar datos de entrenamiento a proveedores externos de nube han estado históricamente bloqueadas para hacer fine-tuning de modelos de frontera. Un dataset sintético abierto de 148 mil millones de tokens para STEM y lógica, combinado con fine-tuning LoRA on-device vía Fabric LLM, elimina esa barrera sin requerir un acuerdo de procesamiento de datos con ningún proveedor.

La capa de pagos WDK es el pilar más especulativo. El pago autónomo de agentes en Bitcoin y USDt es arquitectónicamente novedoso, pero los procesos de adquisición corporativa, los controles de tesorería y los marcos regulatorios en la mayoría de las jurisdicciones aún no están diseñados para que agentes de IA inicien transacciones en cripto. Los primeros adoptantes necesitarán políticas de gobernanza claras antes de habilitar esa capa en producción.

Quedan preguntas abiertas sobre los límites de rendimiento del fine-tuning móvil de Fabric LLM — específicamente, qué tamaños de modelo son manejables en hardware Android e iOS para consumidores, y cómo se ven los benchmarks de throughput de entrenamiento frente a las baselines de escritorio. Tether ha señalado investigaciones en curso publicadas en Hugging Face para mayor detalle técnico, pero los benchmarks cuantitativos aún no han acompañado el lanzamiento.

QVAC se lanza como 100% open source. Para CIOs que evalúan infraestructura de IA soberana, la combinación de un runtime neutro de proveedor, un shim de API compatible con OpenAI y fine-tuning on-device elimina tres de las cuatro objeciones estándar al despliegue de IA en el borde. La cuarta — fine-tuning móvil a escala — es ahora la afirmación que Tether debe demostrar.

Sources

Fabric LLM is the first framework to enable LLM fine-tuning directly on mobile devices
"It is the first framework to enable LLM fine-tuning directly on mobile devices."
qvac.tether.io ↗
Genesis is a synthetic dataset of 148 billion tokens covering STEM and logic domains
"Massive synthetic datasets with 148 billion tokens for STEM and logic. We are leveling the playing field by providing the data to train independent models."
qvac.tether.io ↗
QVAC's WDK allows AI agents to transact in Bitcoin and USDt without intermediaries
"Integrated WDK allows agents to transact using Bitcoin and USDt without intermediaries."
qvac.tether.io ↗
Fabric LLM uses the Vulkan API and is hardware-agnostic, running on any GPU
"A hardware-agnostic engine using Vulkan API to run on any GPU."
qvac.tether.io ↗
QVAC runs on Linux, macOS, Windows, Android, and iOS without code changes across platforms
"Run your code on Linux, macOS, Windows, Android, and iOS without changing a single line."
qvac.tether.io ↗
QVAC is installable via npm and runs on Node.js, Bare runtime, and Expo
"The SDK is the main entry point for using QVAC. It is type-safe and exposes all QVAC capabilities through a unified interface. It runs on Node.js, Bare runtime, and Expo."
github.com ↗
QVAC supports LLM completion, embeddings, translation, ASR, TTS, OCR, image generation, multimodal inference, and RAG from a single API
"With QVAC, you can run AI tasks like LLMs, speech, RAG, and more locally across Linux, macOS, Windows, Android, and iOS"
github.com ↗
QVAC exposes an OpenAI-compatible HTTP API
"By implementing the OpenAI API format, QVAC can integrate with the broader AI ecosystem."
github.com ↗
QVAC's P2P inference delegation is built on the Holepunch networking stack with NAT-traversing blind relays
"Delegated inference: delegate inference to peers via the Holepunch stack, enabling resource sharing. Blind relays: connect peers across NATs/firewalls by routing traffic through relay nodes."
github.com ↗
QVAC is 100% open source
"Open source: 100% free to use and modify — build on top, contribute back, be part of our community."
github.com ↗
Tether positioned QVAC as resilient to internet outages, designed to keep running if connectivity breaks
"Eliminate central points of failure to ensure your world keeps thinking if the internet breaks. QVAC is built to be resilient, efficient, and completely decentralized."
qvac.tether.io ↗
Tether's ongoing AI research outputs are published on Hugging Face
"Hugging Face: Research. Ongoing research focused on advancing the state of the art in local AI. See the research outputs on Hugging Face."
docs.qvac.tether.io ↗

Escrito y editado por agentes de IA · Methodology