一隻友善的機器人把雜亂紙張收進有標籤的抽屜,乾淨的桌面只留一張關鍵的紙

幫 AI 整理一張乾淨的工作桌

📖 省 Token 系列(共四篇):第一篇 為什麼你的 AI 越聊越笨 · 第二篇 能用算盤就別開超級電腦 · 第三篇(本篇)· 第四篇 我幫 AI 裝了一個省錢儀表板 前兩篇都還停在「人人可用」的層次。從這篇開始,我帶你看我電腦裡那套被我折騰到很細的設定。 先說背景。我除了在手機上用 AI 聊天,更常用的是一個叫 Claude Code 的工具:它跑在電腦的終端機裡,可以直接讀我的檔案、改我的筆記、幫我自動化一堆事。你可以把它想成「一個住在我電腦裡、能動手做事的 AI 助理」。 正因為它能做的事多、跑的次數多(一個任務動輒呼叫 AI 幾十上百次),省 token 在這裡的回報會被放大很多倍。而省 token 的第一原則,跟整理書桌一模一樣: 桌面上只放現在用得到的東西,其他都收進抽屜。 常駐稅:有一種成本,你每一句話都在付 我有一個檔案叫 CLAUDE.md,裡面寫著我給 AI 的長期規則:筆記要用什麼格式、哪些資料夾不要碰、我的偏好是什麼。 這個檔案有個特性:它在每次開工的最一開始就被載入,而且整段工作過程都常駐在 AI 眼前,不會被收走。 意思是,如果這個檔案有 5000 個 token,那麼無論我今天只問兩句、還是聊兩百句,每一句的背後都在重複付這 5000 個 token 的錢。 我把它叫做「常駐稅」。每一行都是稅。 所以我刻意把它壓在 95 行左右,只留真正穩定不變、非寫不可的規則。會議記錄、設計過程、長篇說明,全部移到別的地方,要用的時候才叫出來。 順帶一提,這些「只給 AI 看」的設定檔,我一律用英文寫。因為中文在 token 計算上比較貴(同樣意思的中文通常比英文吃更多 token),而給人看的筆記我才用中文。給 AI 的省錢,給人的好讀,各得其所。 抽屜:讓記憶分層,不要全攤在桌上 我給 AI 做了一套記憶系統,但重點不是「記越多越好」,而是分層: 真正天天用到的,放在最上層,每次開工自動載入。 偶爾才用的,收進抽屜,需要時才拉出來。 很久沒碰的,直接封存。 我還做了一個「使用熱度」的計分:常被讀到的記憶分數高、留在桌上;冷掉的自動往下沉。這樣桌面永遠只有當下最相關的那幾張紙。 道理跟上一篇的算盤一樣:這套熱度排序是用程式算的,不勞駕 AI。 這對手機聊天版的人也有啟發:ChatGPT 的「記憶」和「自訂指令」功能不是免費魔法,它是每次對話前自動幫你貼上去的隱形內容,一樣佔空間、一樣每句重算。所以記憶要精簡,不是塞越多越好。 ...

June 29, 2026 · 1 分鐘 · 143 字 · 陳柏威 Po-Wei Chen
計程車跳表上扛著被 token 金幣壓垮、下沉的對話泡泡,一隻友善的機器人吃力地拖著它

為什麼你的 AI 越聊越慢、越聊越笨?

📖 省 Token 系列(共四篇):第一篇(本篇)· 第二篇 能用算盤就別開超級電腦 · 第三篇 幫 AI 整理一張乾淨的工作桌 · 第四篇 我幫 AI 裝了一個省錢儀表板 你一定有過這種經驗:跟 ChatGPT 或 Claude 聊一個下午,越到後面它越遲鈍,回得越慢,還會突然「忘記」你前面講過的事,甚至開始鬼打牆。 很多人以為是自己網路慢,或是 AI 當機。其實不是。這背後有一個大多數人不知道、但知道之後會立刻改變你用法的真相。 真相一:AI 其實沒有「記憶」 我們直覺以為,AI 像人一樣,聊著聊著就「記住」了對話。 它沒有。 每一次你按下送出,AI 都把你們從第一句到現在的整段對話,從頭重讀一遍,然後才回你下一句。它不是接著上一句講,而是每次都把整本對話重新看過。 所以你可以想像:對話越長,它每回答一句之前要重讀的東西就越多。這就是為什麼越聊越慢。 真相二:你其實一直在付錢,只是看不到帳單 AI 處理文字的單位叫 token(大致是一個字或半個詞)。你輸入的每個 token、它輸出的每個 token,背後都在計費。 最好記的比喻是:token 就是 AI 的計程車跳表。 距離(字數)越長,車資越高。 你在訂閱制的 App 裡看不到這張帳單,但它換了一張臉出現在你面前:就是那個「你今天的訊息額度已用完」,還有「怎麼越來越慢」。額度和卡頓的背後,都是 token 的運算量。 而且這筆帳不是線性疊加的。對話長度加倍,你付的運算量不是兩倍,而是接近四倍(這是 AI 內部運算機制的數學特性)。難怪長對話的卡頓感像在爆炸。 真相三:越塞,反而越笨 這點最反直覺,但最有用。 AI 的「注意力」是有限的,所有注意力加起來永遠等於一份。你塞進去的內容越多,每個重點分到的注意力就被稀釋得越薄。多餘的廢話會偷走本該分給關鍵問題的專注力。 這不是我隨口說的。一篇很有名的研究 Lost in the Middle(Liu et al., 2024)發現一個 U 型曲線:資訊放在對話的開頭或結尾,AI 記得最牢;但埋在中間的重點,記得的機率會掉到只剩大約兩成。難怪它常常把你中間講的事忘光光。 另一份 Chroma 在 2025 年的研究測了 18 個主流模型,發現它們全部都隨著輸入變長而表現下滑,這現象被叫做 context rot(脈絡腐化)。 ...

June 29, 2026 · 1 分鐘 · 150 字 · 陳柏威 Po-Wei Chen
左邊一台溫暖的木製算盤,右邊一台發光但耗電的超級電腦,中間隱含天秤,象徵選對工具

能用算盤,就別開超級電腦:什麼時候該叫 AI 動腦?

📖 省 Token 系列(共四篇):第一篇 為什麼你的 AI 越聊越笨 · 第二篇(本篇)· 第三篇 幫 AI 整理一張乾淨的工作桌 · 第四篇 我幫 AI 裝了一個省錢儀表板 上一篇我們講到,跟 AI 對話越長越貴越笨,以及三個立刻能用的省法。這一篇要往前再走一步,談一個更根本的分水嶺: 有些工作,根本不該叫 AI 來做。 聽起來很反骨,但這正是我把 AI 用得省又準的關鍵心法。 兩種工具:算盤與超級電腦 把事情交給電腦處理,其實有兩條完全不同的路。 一條是寫死的程式(script)。你事先把規則想清楚、寫成步驟,之後它就照著跑。像一台算盤,撥珠的規則固定,算十次一百次答案都一樣。 另一條是叫 AI 動腦(LLM)。你描述需求,它「理解」之後生出答案。像一台超級電腦,什麼模糊的、需要判斷的都能接,但每開機一次就燒一次電。 很多人的直覺是:現在 AI 這麼強,什麼都丟給 AI 就好。 這恰恰是燒錢又燒時間的根源。 一張表,看懂兩者的取捨 面向 寫死的程式(算盤) 叫 AI 動腦(超級電腦) 精準度 100% 確定,同樣輸入永遠同樣結果 會漂移,同一個問題問兩次可能答案不同,還可能一本正經地胡說 模糊處理 只能做規則講得清楚的事 能處理語意、判斷、例外、「你懂我意思」那種模糊地帶 花費 幾乎是零 每跑一次都付一次 token 的錢 速度 毫秒級,眨眼就好 秒級,而且對話越長越慢 前置工 要先把規則想對、寫對 開口就能用,零設定 看懂了嗎?兩者沒有誰比較好,只有誰適合這個任務。 規則明確、會重複很多次的事,交給算盤:又快又準又免費。 需要判斷、模糊、每次都不太一樣的事,才值得開動超級電腦。 一個真實的例子:我怎麼讀我的醫學課本 PDF 我有很多教科書的 PDF,常常需要從裡面撈內容。 如果我每一頁都直接丟給 AI 看,那是把超級電腦當印表機用:每一頁都付一次「看圖加讀字」的錢,貴得嚇人(後面那篇會講,直接丟 PDF 給 AI 看,每頁可能燒掉一兩千個 token)。 ...

June 29, 2026 · 1 分鐘 · 169 字 · 陳柏威 Po-Wei Chen