Tether 的 AI 研究團隊發布了 TurboQuant 的開源正式版本,這是一款最初由 Google Research 開發的記憶體壓縮演算法。
此版本是 QVAC SDK 0.12.0 的一部分,目標平台包括筆記型電腦、手機、邊緣裝置及去中心化網路,讓本地 AI 模型能夠在不依賴雲端基礎設施的情況下處理更長時間的會話。
這標誌著裝置端 AI 在處理記憶體密集型任務方面發生了實質性的轉變。
長期以來,記憶體一直是在消費級硬體上執行高效能 AI 模型的障礙。當 AI 助理處理長篇文件或對話時,它會將這些上下文儲存在所謂的 KV 快取中。
在約 262,000 個 Token 的情況下,4B 模型的 KV 快取本身就可能消耗約 8 GB 記憶體。四個並發會話在不計算模型本身的情況下,可將這一數字推至 32 GB。
TurboQuant 透過將 KV 快取最多壓縮五倍來解決這一問題,同時將輸出品質維持在接近未壓縮模型的水準。
用戶現在可以要求筆記型電腦上的助理分析一份百頁的法律文件,而無需將其上傳至遠端伺服器。
學生、開發者、記者和研究人員都能在自己已有的裝置上享受更長時間、更具上下文感知能力的 AI 會話。
在談及此次發布背後更廣泛的考量時,Tether 執行長 Paolo Ardoino 指出了研究與實用軟體之間的落差。
"Google 的研究表明,AI 記憶體的壓縮效率遠比大多數人預想的要高,"他說。"我們的工作將這一突破帶入了開發者、新創公司和用戶可以實際使用的正式軟體中。"
此正式版本包含完整的量化管道、框架適配器、開發者文件及針對工作負載調校的設定檔。
這些元件專為超大規模資料中心以外的真實環境設計,涵蓋受限記憶體、混合硬體及對延遲敏感的部署場景。
TurboQuant 作為 QVAC SDK 0.12.0 的一部分發布,直接整合至 Fabric——QVAC 技術棧的核心元件。
Fabric 最初從 llama.cpp 分叉而來,此後持續整合多項研究進展。SDK 為開發者提供了一套統一的工具、函式庫及執行時元件,用於構建本地 AI 應用程式。
對於新創公司和獨立開發者而言,這消除了大型 AI 產品必須依賴昂貴 GPU 叢集的假設。
團隊現在可以針對更長的上下文視窗、更大的文件工作負載以及跨消費級和邊緣硬體的靈活部署進行設計,為在不依賴純雲端架構的情況下構建 AI 產品開闢了可行路徑。
針對資料隱私和雲端依賴的擔憂,Ardoino 力主將 AI 任務保留在本地裝置上執行。
"人們應該能夠讓 AI 助理閱讀長篇文件或處理私人資訊,而不必將每項任務都強制通過遠端資料中心,"他說。從這個意義上說,TurboQuant 為本地 AI 提供了更大的運作空間。
Tether 的策略以更貼近用戶端運行的 AI 為核心,覆蓋個人裝置和去中心化網路。公司認為,軟體效率與可攜性,連同大規模運算基礎設施,將是 AI 發展下一階段的決定性因素。
The post Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices appeared first on Blockonomi.


