ONE LLM Mode: Zero Extra Cost Memory Extraction
neuromem team
传统的 AI 记忆系统有一个隐性成本问题:每次存储对话内容时,服务端都要调用一个额外的 LLM 来提取事实(Fact)、事件(Episode)和知识图谱三元组(Triple)。对于个人开发者来说,这意味着除了 MCP 客户端本身的 LLM 费用,还要为记忆服务单独配置和支付一个 LLM API Key。
neuromem 的 ONE LLM Mode 彻底解决了这个问题。
LLM 调用成本对比
以每月 100 次记忆操作为例(单位:美元估算)
核心思路:复用客户端 LLM
ONE LLM Mode 的设计哲学非常简单——你已经有一个 LLM 在运行了(比如 Claude Code 或 Cursor 背后的模型),为什么还需要第二个?
传统模式:3 步 + 2 个 LLM
① 客户端调用 ingest
存储对话内容
② 服务端 LLM 提取
调用额外的 LLM API(需配置 + 付费)
③ 存入数据库
提取结果存储
ONE LLM Mode:4 步 + 1 个 LLM
① 客户端调用 ingest
存储对话内容
② 服务端返回提取提示
不调用 LLM,返回 extraction_prompt
③ 客户端 LLM 执行提示
复用已有的 LLM,零额外成本
④ 回传 ingest_extracted
结构化数据存入数据库
整个过程只用了一个 LLM——就是你的 MCP 客户端自带的那个。
Digest 也支持 ONE LLM
记忆提取只是一半,另一半是 digest(反思)。Digest 是 neuromem 的核心能力之一:分析积累的记忆,发现行为模式,生成特征(Trait)。
在 ONE LLM Mode 下,digest 同样采用两步调用模式:
- 客户端调用
digest - 服务端读取未反思的记忆和已有特征,生成反思提示(reflection prompt),不调用 LLM
- 客户端的 LLM 执行反思提示,生成洞察
- 客户端调用
digest_extracted回传生成的特征
服务端的 do_digest_one_llm 函数会读取 watermark 之后的未反思记忆(最多 50 条),连同已有的 trend 阶段特征一起返回给客户端。客户端 LLM 生成的洞察经过 do_digest_extracted 存储为 trait 类型的记忆,初始阶段为 trend,置信度根据重要性评分计算。
智能提醒:何时该 Digest
ONE LLM Mode 还内置了一个贴心设计:当未反思的记忆累积到一定数量(默认 5 条),ingest 的返回结果中会附带一个 digest 推荐提示:
[Digest recommended]
You have 8 unreflected memories. Call `digest` now to analyze
behavioral patterns and improve future recall quality.
这样 MCP 客户端(如 Claude Code)就知道应该主动调用 digest 来触发反思,而不需要用户手动操作。
如何开启
ONE LLM Mode 的开关在 neuromem.cloud 控制台的 Space 设置中,一键切换即可。开启后:
ingest调用会返回extraction_required: true和extraction_promptdigest调用会返回未反思记忆和反思提示- 服务端不会调用任何 LLM
对于自托管(Self-Hosted)和混合加密(Hybrid Encrypted)部署模式,ONE LLM Mode 默认开启。
适用场景
- 个人开发者:只需一个 MCP 客户端,零额外 API 费用
- 隐私敏感场景:对话内容不经过额外的第三方 LLM 服务
- 本地部署用户:Docker 启动后无需配置任何 LLM API Key
ONE LLM Mode vs 传统模式
| 对比维度 | 传统模式 | ONE LLM Mode |
|---|---|---|
| 额外 LLM 费用 | 需要 | ✗ |
| 需要配置 LLM API Key | ✓ | ✗ |
| 提取质量 | 取决于服务端模型 | 与客户端模型一致 |
| 隐私保护 | 内容经过第三方 LLM | 内容不出客户端 |
| 离线可用 | ✗ | ✓(配合本地部署) |
| 配置复杂度 | 高 | 低 |
ONE LLM Mode 让 AI 记忆从"需要额外投入"变成了"开箱即用"。如果你正在使用 Claude Code、Cursor 等 MCP 客户端,这个模式可以让你以零边际成本获得完整的记忆提取和反思能力。