Back to Blog

ONE LLM Mode: Zero Extra Cost Memory Extraction

neuromem team

传统的 AI 记忆系统有一个隐性成本问题:每次存储对话内容时,服务端都要调用一个额外的 LLM 来提取事实(Fact)、事件(Episode)和知识图谱三元组(Triple)。对于个人开发者来说,这意味着除了 MCP 客户端本身的 LLM 费用,还要为记忆服务单独配置和支付一个 LLM API Key。

neuromem 的 ONE LLM Mode 彻底解决了这个问题。

LLM 调用成本对比

以每月 100 次记忆操作为例(单位:美元估算)

核心思路:复用客户端 LLM

ONE LLM Mode 的设计哲学非常简单——你已经有一个 LLM 在运行了(比如 Claude Code 或 Cursor 背后的模型),为什么还需要第二个?

传统模式:3 步 + 2 个 LLM

① 客户端调用 ingest

存储对话内容

② 服务端 LLM 提取

调用额外的 LLM API(需配置 + 付费)

③ 存入数据库

提取结果存储

ONE LLM Mode:4 步 + 1 个 LLM

① 客户端调用 ingest

存储对话内容

② 服务端返回提取提示

不调用 LLM,返回 extraction_prompt

③ 客户端 LLM 执行提示

复用已有的 LLM,零额外成本

④ 回传 ingest_extracted

结构化数据存入数据库

整个过程只用了一个 LLM——就是你的 MCP 客户端自带的那个。

Digest 也支持 ONE LLM

记忆提取只是一半,另一半是 digest(反思)。Digest 是 neuromem 的核心能力之一:分析积累的记忆,发现行为模式,生成特征(Trait)。

在 ONE LLM Mode 下,digest 同样采用两步调用模式:

  1. 客户端调用 digest
  2. 服务端读取未反思的记忆和已有特征,生成反思提示(reflection prompt),不调用 LLM
  3. 客户端的 LLM 执行反思提示,生成洞察
  4. 客户端调用 digest_extracted 回传生成的特征

服务端的 do_digest_one_llm 函数会读取 watermark 之后的未反思记忆(最多 50 条),连同已有的 trend 阶段特征一起返回给客户端。客户端 LLM 生成的洞察经过 do_digest_extracted 存储为 trait 类型的记忆,初始阶段为 trend,置信度根据重要性评分计算。

智能提醒:何时该 Digest

ONE LLM Mode 还内置了一个贴心设计:当未反思的记忆累积到一定数量(默认 5 条),ingest 的返回结果中会附带一个 digest 推荐提示:

[Digest recommended]
You have 8 unreflected memories. Call `digest` now to analyze
behavioral patterns and improve future recall quality.

这样 MCP 客户端(如 Claude Code)就知道应该主动调用 digest 来触发反思,而不需要用户手动操作。

如何开启

ONE LLM Mode 的开关在 neuromem.cloud 控制台的 Space 设置中,一键切换即可。开启后:

  • ingest 调用会返回 extraction_required: trueextraction_prompt
  • digest 调用会返回未反思记忆和反思提示
  • 服务端不会调用任何 LLM

对于自托管(Self-Hosted)和混合加密(Hybrid Encrypted)部署模式,ONE LLM Mode 默认开启。

适用场景

  • 个人开发者:只需一个 MCP 客户端,零额外 API 费用
  • 隐私敏感场景:对话内容不经过额外的第三方 LLM 服务
  • 本地部署用户:Docker 启动后无需配置任何 LLM API Key

ONE LLM Mode vs 传统模式

对比维度传统模式ONE LLM Mode
额外 LLM 费用需要
需要配置 LLM API Key
提取质量取决于服务端模型与客户端模型一致
隐私保护内容经过第三方 LLM内容不出客户端
离线可用✓(配合本地部署)
配置复杂度

ONE LLM Mode 让 AI 记忆从"需要额外投入"变成了"开箱即用"。如果你正在使用 Claude Code、Cursor 等 MCP 客户端,这个模式可以让你以零边际成本获得完整的记忆提取和反思能力。