AI 成本控制的目标不是“无限压低”,而是“效果可接受 + 预算可预测”。你要做的是把成本从“黑盒”变成“产品规则 + 工程策略”。
先做一件事:把一次请求的成本、一次用户会话的成本、一个付费用户的预算写出来。只要你能算账,后面的策略才有意义。
先把成本结构讲明白(写给自己看)
- 哪些动作会触发调用:生成、总结、识别、检索、改写?
- 用户规模与频次预估:DAU、每人每天调用次数、峰值
- 最贵的 20% 请求是什么:长上下文、工具调用、多轮对话?
四个最常用策略
- 限额:按用户/按天/按功能配额,超出给出清晰提示
- 缓存:相同问题/相同上下文复用结果,减少重复调用
- 降级:无 AI 也能用的流程兜底(避免“全黑屏”)
- 替换:根据场景切模型(便宜模型做草稿,贵模型做关键步骤)
限额怎么做才不伤体验
- 额度可视化:剩余次数/剩余 Token(或“还能用几次”)
- 提前预告:剩余 20% 时提示,而不是用完才弹窗
- 给替代方案:用完后提供“低配模式/排队/明天再来”
缓存的三层思路
- 结果缓存:相同输入直接复用输出(最省钱)
- 中间缓存:检索结果、工具调用结果可复用(最稳)
- 提示缓存:稳定的 system/prompt 模块化,减少无效 Token
把成本写进产品设计里,通常比后期“补丁式优化”便宜得多:你越早把“可用性兜底”和“预算边界”定下来,越不容易在增长时失控。