Re: [心得] token maximum - Soft_Job板

作者 pacino (掃地僧)
標題 Re: [心得] token maximum
時間 Sat Mar 7 10:12:44 2026

看了這兩串, 充滿了疑問..
想討論一下這個主題： token

(1) 每個LLM 都有自己的max. tokens
這是在training model時就要決定的

(2) max output tokens是讓agent在送給LLM 之前處理用的，避免超過LLM model的max. to
(3) rules 沒被執行，有可能是context可能超過LLM model的max. tokens, agent 主動壓?

這樣不就解釋了兩串原po的問題？

麻煩指正，若我的了解有誤。

--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.249.83.213 (臺灣)
※ 作者: pacino 2026-03-07 10:12:44
※ 文章代碼(AID): #1fgucUG2 (Soft_Job)
※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1772849566.A.402.html

※ 同主題文章:

[心得] token maximum

02-21 22:04 erspicu

Re: [心得] token maximum

03-01 18:05 leicheong

Re: [心得] token maximum

03-07 10:12 pacino

噓 MoonCode:1F 03/07 10:24

噓 DrTech: 1. LLM什麼時後會停止回答，跟你設定多長的 max output token無關。2.max output token不是寫在prompt裡面。2F 03/07 14:26

為了避免LLM不處理超過model的max tokens (聽說 LLM會傳回error，往返也是cost)
所以才要靠agent把關，不是嗎？
Max output token是給agent用的
當有需要減少context,
agent有個機制會壓縮整個context（prompt, history, rules, referenced files..)
再把壓縮後的context送往LLM

→ DrTech: LLM要停止輸出，不看max output tokens，是看有沒有算出EOS token。與你怎麼設定OS環境變數，是否放在prompt無關。按錯，我不是要噓。4F 03/07 14:32

※ 編輯: pacino (111.249.83.213 臺灣), 03/07/2026 15:16:09

→ DrTech: 完全錯誤。首先，LLM本身不會回傳error或output error。丟太長的文字序列或向量進去，向量長度不合，"應用層程式碼" (例如pytorch)就報error了。
LLM根本沒處理，更不會回傳error,。
另外，Max output token，不是給agent看的。在預設的情況，agent 做任何選擇，agent輸出什麼文字，根本不看Max output token設定多少。 max output tokens通常是設定在serving service層(例如vllm)跟agent根本無關。
簡單話：控制LLM輸出的長度，永遠不是LLM在做。是應用層程式碼在做。
agent或LLM不會把關長度的。7F 03/07 23:12

作者 pacino 的最新發文:

[問題] 長時間旅遊，簽帳金融卡好用嗎？ - Japan_Travel 板

作者: pacino 36.230.25.110 (台灣) 2026-03-22 08:48:53

13F 1推 2噓
Re: [心得] token maximum - Soft_Job 板

作者: pacino 111.249.83.213 (台灣) 2026-03-07 10:12:44

17F 1推 2噓
[討論] 第一應該是美國 - Baseball 板

作者: pacino 36.230.62.159 (台灣) 2026-03-04 06:16:22

24F 8推 9噓
+3 Re: [新聞] 出席法鼓山除夕撞鐘鄭麗文「手握紅繩抖動 - HatePolitics 板

作者: pacino 36.230.45.138 (台灣) 2026-02-17 12:58:05

57F 15推 12噓
+62 [問題] 黑田的跑姿 - Road_Running 板

作者: pacino 36.230.17.126 (台灣) 2026-01-03 12:26:14

177F 62推

點此顯示更多發文記錄