屬於 “Transformer” 標籤的文章

查看所有標籤
共有 1 篇文章

Transformer 內建電腦:2D 注意力如何讓 LLM 直接執行程式

Percepta 團隊在標準 Transformer 內部建造了一台 RAM 電腦,透過 2D 注意力頭與凸包查詢實現 O(log t) 解碼,讓模型直接執行 WebAssembly 程式。解析 Exponentially Fast Attention 的技術原理、HullKVCache 的 75 倍加速,以及從工具使用到模型內執行的範式轉移。