Transformer 內建電腦:2D 注意力如何讓 LLM 直接執行程式Percepta 團隊在標準 Transformer 內部建造了一台 RAM 電腦,透過 2D 注意力頭與凸包查詢實現 O(log t) 解碼,讓模型直接執行 WebAssembly 程式。解析 Exponentially Fast Attention 的技術原理、HullKVCache 的 75 倍加速,以及從工具使用到模型內執行的範式轉移。 2026 年 03 月 13 日 AIr-FriendsAILLMTransformer