Tenstorrent presenta servidores de inferencia de próxima generación con alto throughput de generación de tokens sin desagregación prefill-decode
Tenstorrent anunció una nueva línea de servidores diseñada para lograr un alto throughput de generación de tokens sin requerir las arquitecturas de desagregación prefill-decode comunes en despliegues de LLM basados en NVIDIA. El enfoque simplifica la pila de inferencia a escala.
La desagregación añade una complejidad operacional significativa para los equipos de ingeniería que atienden modelos de lenguaje grandes en producción. Un diseño de hardware que la evita podría reducir tanto los costos de infraestructura como la sobrecarga de DevOps — una propuesta relevante para empresas que evalúan alternativas a NVIDIA para inferencia.