Tenstorrent apresenta servidores de inferência de próxima geração com alta taxa de geração de tokens sem desagregação prefill-decode
A Tenstorrent anunciou uma nova linha de servidores projetada para alcançar alto throughput de geração de tokens sem exigir as arquiteturas de desagregação prefill-decode comuns em implantações de LLM baseadas em NVIDIA. A abordagem simplifica a pilha de inferência em escala.
A desagregação adiciona complexidade operacional significativa para equipes de engenharia que atendem modelos de linguagem grandes em produção. Um design de hardware que a evita poderia reduzir tanto os custos de infraestrutura quanto a sobrecarga de DevOps — uma proposta relevante para empresas avaliando alternativas à NVIDIA para inferência.