生產力 | 陳柏威醫師 Po-Wei Chen, MD

幫 AI 整理一張乾淨的工作桌

📖 省 Token 系列（共四篇）：第一篇為什麼你的 AI 越聊越笨 · 第二篇能用算盤就別開超級電腦 · 第三篇（本篇）· 第四篇我幫 AI 裝了一個省錢儀表板前兩篇都還停在「人人可用」的層次。從這篇開始，我帶你看我電腦裡那套被我折騰到很細的設定。先說背景。我除了在手機上用 AI 聊天，更常用的是一個叫 Claude Code 的工具：它跑在電腦的終端機裡，可以直接讀我的檔案、改我的筆記、幫我自動化一堆事。你可以把它想成「一個住在我電腦裡、能動手做事的 AI 助理」。正因為它能做的事多、跑的次數多（一個任務動輒呼叫 AI 幾十上百次），省 token 在這裡的回報會被放大很多倍。而省 token 的第一原則，跟整理書桌一模一樣：桌面上只放現在用得到的東西，其他都收進抽屜。常駐稅：有一種成本，你每一句話都在付我有一個檔案叫 CLAUDE.md，裡面寫著我給 AI 的長期規則：筆記要用什麼格式、哪些資料夾不要碰、我的偏好是什麼。這個檔案有個特性：它在每次開工的最一開始就被載入，而且整段工作過程都常駐在 AI 眼前，不會被收走。意思是，如果這個檔案有 5000 個 token，那麼無論我今天只問兩句、還是聊兩百句，每一句的背後都在重複付這 5000 個 token 的錢。我把它叫做「常駐稅」。每一行都是稅。所以我刻意把它壓在 95 行左右，只留真正穩定不變、非寫不可的規則。會議記錄、設計過程、長篇說明，全部移到別的地方，要用的時候才叫出來。順帶一提，這些「只給 AI 看」的設定檔，我一律用英文寫。因為中文在 token 計算上比較貴（同樣意思的中文通常比英文吃更多 token），而給人看的筆記我才用中文。給 AI 的省錢，給人的好讀，各得其所。抽屜：讓記憶分層，不要全攤在桌上我給 AI 做了一套記憶系統，但重點不是「記越多越好」，而是分層：真正天天用到的，放在最上層，每次開工自動載入。偶爾才用的，收進抽屜，需要時才拉出來。很久沒碰的，直接封存。我還做了一個「使用熱度」的計分：常被讀到的記憶分數高、留在桌上；冷掉的自動往下沉。這樣桌面永遠只有當下最相關的那幾張紙。道理跟上一篇的算盤一樣：這套熱度排序是用程式算的，不勞駕 AI。這對手機聊天版的人也有啟發：ChatGPT 的「記憶」和「自訂指令」功能不是免費魔法，它是每次對話前自動幫你貼上去的隱形內容，一樣佔空間、一樣每句重算。所以記憶要精簡，不是塞越多越好。 ...

計程車跳表上扛著被 token 金幣壓垮、下沉的對話泡泡，一隻友善的機器人吃力地拖著它

為什麼你的 AI 越聊越慢、越聊越笨？

📖 省 Token 系列（共四篇）：第一篇（本篇）· 第二篇能用算盤就別開超級電腦 · 第三篇幫 AI 整理一張乾淨的工作桌 · 第四篇我幫 AI 裝了一個省錢儀表板你一定有過這種經驗：跟 ChatGPT 或 Claude 聊一個下午，越到後面它越遲鈍，回得越慢，還會突然「忘記」你前面講過的事，甚至開始鬼打牆。很多人以為是自己網路慢，或是 AI 當機。其實不是。這背後有一個大多數人不知道、但知道之後會立刻改變你用法的真相。真相一：AI 其實沒有「記憶」我們直覺以為，AI 像人一樣，聊著聊著就「記住」了對話。它沒有。每一次你按下送出，AI 都把你們從第一句到現在的整段對話，從頭重讀一遍，然後才回你下一句。它不是接著上一句講，而是每次都把整本對話重新看過。所以你可以想像：對話越長，它每回答一句之前要重讀的東西就越多。這就是為什麼越聊越慢。真相二：你其實一直在付錢，只是看不到帳單 AI 處理文字的單位叫 token（大致是一個字或半個詞）。你輸入的每個 token、它輸出的每個 token，背後都在計費。最好記的比喻是：token 就是 AI 的計程車跳表。距離（字數）越長，車資越高。你在訂閱制的 App 裡看不到這張帳單，但它換了一張臉出現在你面前：就是那個「你今天的訊息額度已用完」，還有「怎麼越來越慢」。額度和卡頓的背後，都是 token 的運算量。而且這筆帳不是線性疊加的。對話長度加倍，你付的運算量不是兩倍，而是接近四倍（這是 AI 內部運算機制的數學特性）。難怪長對話的卡頓感像在爆炸。真相三：越塞，反而越笨這點最反直覺，但最有用。 AI 的「注意力」是有限的，所有注意力加起來永遠等於一份。你塞進去的內容越多，每個重點分到的注意力就被稀釋得越薄。多餘的廢話會偷走本該分給關鍵問題的專注力。這不是我隨口說的。一篇很有名的研究 Lost in the Middle（Liu et al., 2024）發現一個 U 型曲線：資訊放在對話的開頭或結尾，AI 記得最牢；但埋在中間的重點，記得的機率會掉到只剩大約兩成。難怪它常常把你中間講的事忘光光。另一份 Chroma 在 2025 年的研究測了 18 個主流模型，發現它們全部都隨著輸入變長而表現下滑，這現象被叫做 context rot（脈絡腐化）。 ...

左邊一台溫暖的木製算盤，右邊一台發光但耗電的超級電腦，中間隱含天秤，象徵選對工具

能用算盤，就別開超級電腦：什麼時候該叫 AI 動腦？

📖 省 Token 系列（共四篇）：第一篇為什麼你的 AI 越聊越笨 · 第二篇（本篇）· 第三篇幫 AI 整理一張乾淨的工作桌 · 第四篇我幫 AI 裝了一個省錢儀表板上一篇我們講到，跟 AI 對話越長越貴越笨，以及三個立刻能用的省法。這一篇要往前再走一步，談一個更根本的分水嶺：有些工作，根本不該叫 AI 來做。聽起來很反骨，但這正是我把 AI 用得省又準的關鍵心法。兩種工具：算盤與超級電腦把事情交給電腦處理，其實有兩條完全不同的路。一條是寫死的程式（script）。你事先把規則想清楚、寫成步驟，之後它就照著跑。像一台算盤，撥珠的規則固定，算十次一百次答案都一樣。另一條是叫 AI 動腦（LLM）。你描述需求，它「理解」之後生出答案。像一台超級電腦，什麼模糊的、需要判斷的都能接，但每開機一次就燒一次電。很多人的直覺是：現在 AI 這麼強，什麼都丟給 AI 就好。這恰恰是燒錢又燒時間的根源。一張表，看懂兩者的取捨面向寫死的程式（算盤）叫 AI 動腦（超級電腦）精準度 100% 確定，同樣輸入永遠同樣結果會漂移，同一個問題問兩次可能答案不同，還可能一本正經地胡說模糊處理只能做規則講得清楚的事能處理語意、判斷、例外、「你懂我意思」那種模糊地帶花費幾乎是零每跑一次都付一次 token 的錢速度毫秒級，眨眼就好秒級，而且對話越長越慢前置工要先把規則想對、寫對開口就能用，零設定看懂了嗎？兩者沒有誰比較好，只有誰適合這個任務。規則明確、會重複很多次的事，交給算盤：又快又準又免費。需要判斷、模糊、每次都不太一樣的事，才值得開動超級電腦。一個真實的例子：我怎麼讀我的醫學課本 PDF 我有很多教科書的 PDF，常常需要從裡面撈內容。如果我每一頁都直接丟給 AI 看，那是把超級電腦當印表機用：每一頁都付一次「看圖加讀字」的錢，貴得嚇人（後面那篇會講，直接丟 PDF 給 AI 看，每頁可能燒掉一兩千個 token）。 ...