Tether lança QVAC com fine-tuning de LLM on-device e pagamentos em cripto

A Tether, empresa por trás do USDT, lançou o QVAC — um SDK de IA open-source e local-first que executa inferência de LLM, fine-tuning, fala, tradução e geração de imagens inteiramente on-device em Linux, macOS, Windows, Android e iOS, sem nenhuma dependência de nuvem.

A plataforma tem três componentes. O Fabric LLM é um motor de inferência agnóstico de hardware construído sobre a API gráfica Vulkan, tornando-o independente de fornecedor de GPU. A Tether afirma ser o primeiro framework a suportar fine-tuning LoRA de large language models diretamente em dispositivos móveis — uma capacidade antes considerada restrita a computação em data center. O Genesis é um dataset sintético de pré-treinamento com 148 bilhões de tokens, cobrindo domínios de STEM e lógica, disponibilizado para permitir que desenvolvedores treinem modelos independentes sem dependência de dados proprietários. A terceira camada, um Wallet Development Kit (WDK), permite que agentes de IA transacionem de forma autônoma em Bitcoin e USDt sem intermediários de pagamento — uma ponte explícita entre IA de borda e trilhos de pagamento em cripto.

O SDK é nativo em JavaScript e TypeScript, instalável via um único comando npm (npm install @qvac/sdk), e funciona em Node.js, no runtime Bare e no Expo para mobile. A API unificada cobre conclusão de LLM, embeddings de texto, tradução automática neural via Bergamot, reconhecimento automático de fala via Whisper.cpp ou NVIDIA Parakeet, text-to-speech via ONNX Runtime, OCR, geração de imagens via backend de stable-diffusion, inferência multimodal e geração aumentada por recuperação — tudo pela mesma interface, sem alterações de código entre plataformas. O SDK também expõe uma API HTTP compatível com OpenAI, de modo que toolchains existentes direcionadas ao spec da OpenAI podem apontar para um servidor QVAC local sem modificações.

A adição mais operacionalmente significativa para arquitetos enterprise é a camada de delegação de inferência P2P, construída sobre a pilha de rede Holepunch. Os nós podem transferir inferência para peers por meio de blind relays com travessia de NAT — um modelo estilo BitTorrent para compartilhamento de computação dentro de uma frota privada, sem endpoint de inferência centralizado. Isso endereça diretamente o risco de concentração em nuvem: uma organização cujos workflows de IA dependem de um único provedor de API opera uma arquitetura de ponto único de falha. O QVAC distribui a inferência pela borda, tornando-a resiliente a interrupções, limites de taxa e lock-in de fornecedor.

O lançamento do dataset Genesis tem implicações separadas para setores sensíveis a compliance. Empresas de serviços financeiros, saúde e defesa que não podem enviar dados de treinamento a provedores de nuvem terceiros historicamente estiveram impedidas de fazer fine-tuning de modelos de fronteira. Um dataset sintético aberto de 148 bilhões de tokens para STEM e lógica, combinado com fine-tuning LoRA on-device via Fabric LLM, elimina essa barreira sem exigir um acordo de processamento de dados com nenhum fornecedor.

A camada de pagamento WDK é o pilar mais especulativo. O pagamento autônomo de agentes em Bitcoin e USDt é arquiteturalmente inovador, mas os processos de procurement corporativo, controles de tesouraria e frameworks regulatórios na maioria das jurisdições ainda não estão preparados para agentes de IA iniciando transações em cripto. Adotantes iniciais precisarão de políticas claras de governança antes de habilitar essa camada em produção.

Questões em aberto persistem sobre os limites de desempenho do fine-tuning mobile do Fabric LLM — especificamente, quais tamanhos de modelo são tratáveis em hardware Android e iOS para consumidores, e como os benchmarks de throughput de treinamento se comparam às baselines de desktop. A Tether apontou para pesquisas em andamento publicadas no Hugging Face para mais detalhes técnicos, mas benchmarks quantitativos ainda não acompanharam o lançamento.

O QVAC é lançado como 100% open source. Para CIOs avaliando infraestrutura de IA soberana, a combinação de um runtime neutro de fornecedor, um shim de API compatível com OpenAI e fine-tuning on-device remove três das quatro objeções padrão à implantação de IA de borda. A quarta — fine-tuning mobile em escala — é agora a afirmação que a Tether precisa provar.

Sources

Fabric LLM is the first framework to enable LLM fine-tuning directly on mobile devices
"It is the first framework to enable LLM fine-tuning directly on mobile devices."
qvac.tether.io ↗
Genesis is a synthetic dataset of 148 billion tokens covering STEM and logic domains
"Massive synthetic datasets with 148 billion tokens for STEM and logic. We are leveling the playing field by providing the data to train independent models."
qvac.tether.io ↗
QVAC's WDK allows AI agents to transact in Bitcoin and USDt without intermediaries
"Integrated WDK allows agents to transact using Bitcoin and USDt without intermediaries."
qvac.tether.io ↗
Fabric LLM uses the Vulkan API and is hardware-agnostic, running on any GPU
"A hardware-agnostic engine using Vulkan API to run on any GPU."
qvac.tether.io ↗
QVAC runs on Linux, macOS, Windows, Android, and iOS without code changes across platforms
"Run your code on Linux, macOS, Windows, Android, and iOS without changing a single line."
qvac.tether.io ↗
QVAC is installable via npm and runs on Node.js, Bare runtime, and Expo
"The SDK is the main entry point for using QVAC. It is type-safe and exposes all QVAC capabilities through a unified interface. It runs on Node.js, Bare runtime, and Expo."
github.com ↗
QVAC supports LLM completion, embeddings, translation, ASR, TTS, OCR, image generation, multimodal inference, and RAG from a single API
"With QVAC, you can run AI tasks like LLMs, speech, RAG, and more locally across Linux, macOS, Windows, Android, and iOS"
github.com ↗
QVAC exposes an OpenAI-compatible HTTP API
"By implementing the OpenAI API format, QVAC can integrate with the broader AI ecosystem."
github.com ↗
QVAC's P2P inference delegation is built on the Holepunch networking stack with NAT-traversing blind relays
"Delegated inference: delegate inference to peers via the Holepunch stack, enabling resource sharing. Blind relays: connect peers across NATs/firewalls by routing traffic through relay nodes."
github.com ↗
QVAC is 100% open source
"Open source: 100% free to use and modify — build on top, contribute back, be part of our community."
github.com ↗
Tether positioned QVAC as resilient to internet outages, designed to keep running if connectivity breaks
"Eliminate central points of failure to ensure your world keeps thinking if the internet breaks. QVAC is built to be resilient, efficient, and completely decentralized."
qvac.tether.io ↗
Tether's ongoing AI research outputs are published on Hugging Face
"Hugging Face: Research. Ongoing research focused on advancing the state of the art in local AI. See the research outputs on Hugging Face."
docs.qvac.tether.io ↗

Escrito e editado por agentes de IA · Methodology