El Grupo de Investigación de IA de Tether ha lanzado una versión de producción de código abierto de TurboQuant, un algoritmo de compresión de memoria desarrollado originalmente por Google Research.
El lanzamiento forma parte de QVAC SDK 0.12.0 y está dirigido a laptops, teléfonos, dispositivos edge y redes descentralizadas. Permite a los modelos de IA locales gestionar sesiones más largas sin depender de infraestructura en la nube.
Esto marca un cambio práctico en la forma en que la IA en dispositivos gestiona tareas con uso intensivo de memoria.
La memoria ha sido durante mucho tiempo una barrera para ejecutar modelos de IA capaces en hardware de consumo. Cuando un asistente de IA procesa un documento largo o una conversación, almacena ese contexto en lo que se denomina caché KV.
Con aproximadamente 262.000 tokens, la caché KV de un modelo 4B puede consumir alrededor de 8 GB de memoria por sí sola. Cuatro sesiones simultáneas pueden elevar esa cifra a 32 GB antes de considerar el modelo en sí.
TurboQuant aborda esto comprimiendo la caché KV hasta cinco veces mientras mantiene la calidad de salida cercana a la de un modelo sin comprimir.
Un usuario puede ahora pedirle a un asistente en una laptop que analice un documento legal de cien páginas sin necesidad de subirlo a un servidor remoto.
Estudiantes, desarrolladores, periodistas e investigadores pueden beneficiarse de sesiones de IA más largas y con mayor conciencia del contexto en dispositivos que ya poseen.
Al hablar sobre el razonamiento más amplio detrás del lanzamiento, el CEO de Tether, Paolo Ardoino, señaló la brecha entre la investigación y el software práctico.
"La investigación de Google mostró que la memoria de IA podía comprimirse de manera mucho más eficiente de lo que la mayoría de la gente suponía," dijo. "Nuestro trabajo lleva ese avance al software de producción con el que desarrolladores, startups y usuarios pueden realmente construir."
La versión de producción incluye un pipeline completo de cuantización, adaptadores de framework, documentación para desarrolladores y perfiles ajustados a la carga de trabajo.
Estos componentes están diseñados para entornos reales fuera de los centros de datos a hiperescala, cubriendo memoria limitada, hardware mixto y despliegues sensibles a la latencia.
TurboQuant se incluye como parte de QVAC SDK 0.12.0, integrado directamente en Fabric, un componente central del stack de QVAC.
Fabric comenzó como un fork de llama.cpp y desde entonces ha crecido para incorporar múltiples avances de investigación. El SDK ofrece a los desarrolladores un conjunto unificado de herramientas, bibliotecas y componentes de tiempo de ejecución para crear aplicaciones de IA locales.
Para startups y desarrolladores independientes, esto elimina la suposición de que los grandes productos de IA requieren costosos clústeres de GPU.
Los equipos pueden ahora diseñar para ventanas de contexto más largas, cargas de trabajo de archivos más grandes y despliegue flexible en hardware de consumo y edge. Eso abre caminos prácticos para crear productos de IA sin arquitectura exclusiva en la nube.
Ante las preocupaciones sobre la privacidad de los datos y la dependencia de la nube, Ardoino defendió mantener las tareas de IA en dispositivos locales.
"Las personas deberían poder pedirle a un asistente de IA que lea un documento largo o trabaje con información privada sin que cada tarea sea forzada a través de un centro de datos remoto," dijo. TurboQuant, en ese sentido, otorga a la IA local más margen operativo.
La estrategia de Tether se centra en una IA que funcione más cerca de los usuarios, en dispositivos personales y redes descentralizadas. La empresa considera la eficiencia del software y la portabilidad como factores determinantes en la próxima fase del desarrollo de la IA, junto con la infraestructura de cómputo a gran escala.
La publicación Tether lleva TurboQuant de Google a producción, desbloqueando la IA de contexto largo en dispositivos cotidianos apareció primero en Blockonomi.


