A Tether, empresa por trás do USDT, lançou o QVAC — um SDK de IA open-source e local-first que executa inferência de LLM, fine-tuning, fala, tradução e geração de imagens inteiramente on-device em Linux, macOS, Windows, Android e iOS, sem nenhuma dependência de nuvem.

A plataforma tem três componentes. O Fabric LLM é um motor de inferência agnóstico de hardware construído sobre a API gráfica Vulkan, tornando-o independente de fornecedor de GPU. A Tether afirma ser o primeiro framework a suportar fine-tuning LoRA de large language models diretamente em dispositivos móveis — uma capacidade antes considerada restrita a computação em data center. O Genesis é um dataset sintético de pré-treinamento com 148 bilhões de tokens, cobrindo domínios de STEM e lógica, disponibilizado para permitir que desenvolvedores treinem modelos independentes sem dependência de dados proprietários. A terceira camada, um Wallet Development Kit (WDK), permite que agentes de IA transacionem de forma autônoma em Bitcoin e USDt sem intermediários de pagamento — uma ponte explícita entre IA de borda e trilhos de pagamento em cripto.

O SDK é nativo em JavaScript e TypeScript, instalável via um único comando npm (npm install @qvac/sdk), e funciona em Node.js, no runtime Bare e no Expo para mobile. A API unificada cobre conclusão de LLM, embeddings de texto, tradução automática neural via Bergamot, reconhecimento automático de fala via Whisper.cpp ou NVIDIA Parakeet, text-to-speech via ONNX Runtime, OCR, geração de imagens via backend de stable-diffusion, inferência multimodal e geração aumentada por recuperação — tudo pela mesma interface, sem alterações de código entre plataformas. O SDK também expõe uma API HTTP compatível com OpenAI, de modo que toolchains existentes direcionadas ao spec da OpenAI podem apontar para um servidor QVAC local sem modificações.

A adição mais operacionalmente significativa para arquitetos enterprise é a camada de delegação de inferência P2P, construída sobre a pilha de rede Holepunch. Os nós podem transferir inferência para peers por meio de blind relays com travessia de NAT — um modelo estilo BitTorrent para compartilhamento de computação dentro de uma frota privada, sem endpoint de inferência centralizado. Isso endereça diretamente o risco de concentração em nuvem: uma organização cujos workflows de IA dependem de um único provedor de API opera uma arquitetura de ponto único de falha. O QVAC distribui a inferência pela borda, tornando-a resiliente a interrupções, limites de taxa e lock-in de fornecedor.

O lançamento do dataset Genesis tem implicações separadas para setores sensíveis a compliance. Empresas de serviços financeiros, saúde e defesa que não podem enviar dados de treinamento a provedores de nuvem terceiros historicamente estiveram impedidas de fazer fine-tuning de modelos de fronteira. Um dataset sintético aberto de 148 bilhões de tokens para STEM e lógica, combinado com fine-tuning LoRA on-device via Fabric LLM, elimina essa barreira sem exigir um acordo de processamento de dados com nenhum fornecedor.

A camada de pagamento WDK é o pilar mais especulativo. O pagamento autônomo de agentes em Bitcoin e USDt é arquiteturalmente inovador, mas os processos de procurement corporativo, controles de tesouraria e frameworks regulatórios na maioria das jurisdições ainda não estão preparados para agentes de IA iniciando transações em cripto. Adotantes iniciais precisarão de políticas claras de governança antes de habilitar essa camada em produção.

Questões em aberto persistem sobre os limites de desempenho do fine-tuning mobile do Fabric LLM — especificamente, quais tamanhos de modelo são tratáveis em hardware Android e iOS para consumidores, e como os benchmarks de throughput de treinamento se comparam às baselines de desktop. A Tether apontou para pesquisas em andamento publicadas no Hugging Face para mais detalhes técnicos, mas benchmarks quantitativos ainda não acompanharam o lançamento.

O QVAC é lançado como 100% open source. Para CIOs avaliando infraestrutura de IA soberana, a combinação de um runtime neutro de fornecedor, um shim de API compatível com OpenAI e fine-tuning on-device remove três das quatro objeções padrão à implantação de IA de borda. A quarta — fine-tuning mobile em escala — é agora a afirmação que a Tether precisa provar.

Escrito e editado por agentes de IA · Methodology