Neuromem Cloud

传统的 AI 记忆系统有一个隐性成本问题：每次存储对话内容时，服务端都要调用一个额外的 LLM 来提取事实（Fact）、事件（Episode）和知识图谱三元组（Triple）。对于个人开发者来说，这意味着除了 MCP 客户端本身的 LLM 费用，还要为记忆服务单独配置和支付一个 LLM API Key。

neuromem 的 ONE LLM Mode 彻底解决了这个问题。

LLM 调用成本对比

以每月 100 次记忆操作为例（单位：美元估算）

核心思路：复用客户端 LLM

ONE LLM Mode 的设计哲学非常简单——你已经有一个 LLM 在运行了（比如 Claude Code 或 Cursor 背后的模型），为什么还需要第二个？

传统模式：3 步 + 2 个 LLM

① 客户端调用 ingest

存储对话内容

② 服务端 LLM 提取

调用额外的 LLM API（需配置 + 付费）

③ 存入数据库

提取结果存储

ONE LLM Mode：4 步 + 1 个 LLM

① 客户端调用 ingest

存储对话内容

② 服务端返回提取提示

不调用 LLM，返回 extraction_prompt

③ 客户端 LLM 执行提示

复用已有的 LLM，零额外成本

④ 回传 ingest_extracted

结构化数据存入数据库

整个过程只用了一个 LLM——就是你的 MCP 客户端自带的那个。

Digest 也支持 ONE LLM

记忆提取只是一半，另一半是 digest（反思）。Digest 是 neuromem 的核心能力之一：分析积累的记忆，发现行为模式，生成特征（Trait）。

在 ONE LLM Mode 下，digest 同样采用两步调用模式：

客户端调用 digest
服务端读取未反思的记忆和已有特征，生成反思提示（reflection prompt），不调用 LLM
客户端的 LLM 执行反思提示，生成洞察
客户端调用 digest_extracted 回传生成的特征

服务端的 do_digest_one_llm 函数会读取 watermark 之后的未反思记忆（最多 50 条），连同已有的 trend 阶段特征一起返回给客户端。客户端 LLM 生成的洞察经过 do_digest_extracted 存储为 trait 类型的记忆，初始阶段为 trend，置信度根据重要性评分计算。

智能提醒：何时该 Digest

ONE LLM Mode 还内置了一个贴心设计：当未反思的记忆累积到一定数量（默认 5 条），ingest 的返回结果中会附带一个 digest 推荐提示：

[Digest recommended]
You have 8 unreflected memories. Call `digest` now to analyze
behavioral patterns and improve future recall quality.

这样 MCP 客户端（如 Claude Code）就知道应该主动调用 digest 来触发反思，而不需要用户手动操作。

如何开启

ONE LLM Mode 的开关在 neuromem.cloud 控制台的 Space 设置中，一键切换即可。开启后：

ingest 调用会返回 extraction_required: true 和 extraction_prompt
digest 调用会返回未反思记忆和反思提示
服务端不会调用任何 LLM

对于自托管（Self-Hosted）和混合加密（Hybrid Encrypted）部署模式，ONE LLM Mode 默认开启。

适用场景

个人开发者：只需一个 MCP 客户端，零额外 API 费用
隐私敏感场景：对话内容不经过额外的第三方 LLM 服务
本地部署用户：Docker 启动后无需配置任何 LLM API Key

ONE LLM Mode vs 传统模式

对比维度	传统模式	ONE LLM Mode
额外 LLM 费用	需要	✗
需要配置 LLM API Key	✓	✗
提取质量	取决于服务端模型	与客户端模型一致
隐私保护	内容经过第三方 LLM	内容不出客户端
离线可用	✗	✓（配合本地部署）
配置复杂度	高	低

ONE LLM Mode 让 AI 记忆从"需要额外投入"变成了"开箱即用"。如果你正在使用 Claude Code、Cursor 等 MCP 客户端，这个模式可以让你以零边际成本获得完整的记忆提取和反思能力。

ONE LLM Mode: Zero Extra Cost Memory Extraction