概括一下，接连陷裁员、“跑路”争议后，Manus联创发文深度复盘

发表评论

A+

所属分类：科技

摘要

语言模型会模仿上下文中的行为模式，解决方法是增加多样性，Manus选择在行动和观察中引入少量的结构化变化——不同的序列化模板、替代措辞、顺序或格式的微小噪声，这种受控的随机性有助于打破模式并调整模型的注意力。…” />

来源：猎云网

站在用户角度来说，

距3月6日惊艳亮相仅100余天，Manus接连陷入大规模裁员传闻和“删博跑路”争议。

容易被误解的是，

近日，Manus联创季逸超通过一偏技术博客，对公司发展进行了深度复盘，他在文中坦诚地总结了团队在构建Manus过程中积累的经验教训，主要集中在7个方面：

很多人不知道，

1.不再只是训练模型，而是押注上下文。放弃“从头着手为开放信息提取和语义搜索训练模型”，Manus将押注于上下文工程，“在几小时内而非几周内推出改进，并使产品与底层模型保持正交”。

2.KV-cache命中率是生产阶段AI Agent最主要的单一指标，它直接影响延迟和成本。从上下文工程的角度来看，提高KV-缓存命中率涉及几个关键实践：保持提示前缀稳定、使上下文仅追加、在需要时明确标记缓存断点。

从某种意义上讲，

3.除非绝对必要，避免在迭代过程中动态添加或移除插件。Manus运用遮蔽 token logits的方法，让模型看不见不应调用的插件。

但实际上，

4.运用文件系统作为上下文。Manus让模型把长期记忆写入虚拟文件系统，按需读写，实现外部记忆，规避信息丢失。

5.通过复述操控注意力。模型容易中途忘记目标，Manus会不断用自然语言更新并重述todo.md 文件，把全局目标拉回注意力焦点，防止任务跑偏。

XM外汇快讯：

6.保留错误的素材。Manus发现，“改善Agent行为最有效的方法之一出奇地便捷：将错误尝试保留在上下文中。当模型看到失败的行动——以及由此产生的观察结果或堆栈跟踪——它会隐式地更新其内部信念。这会使其先验远离类似的行动，减少重复相同错误的可能性”。

换个角度来看，

7.不要被少样本提示所困。语言模型会模仿上下文中的行为模式，化解方法是增加多样性，Manus挑选在行动和观察中引入少量的结构化变化——不同的序列化模板、替代措辞、顺序或格式的微小噪声，这种受控的随机性有助于打破模式并调整模型的注意力。

XM外汇资讯：

Manus此前曾在在业界大火，官方介绍是全球首款通用AI智能体，产品发布后，其官网的访问量迅速增长至千万级别，成为Deepseek之后，在国内另一个出圈的AI应用。

容易被误解的是，

展开全文

资料显示，Manus于3月6日凌晨发布，是一个通用的AI代理，可用连接思想和行动，它不仅会思考，还会给予结果。Manus擅长工作和生活中的各种任务，在终端休息时完成所有事情。产品官网显示，Manus在GAIA基准测试中取得SOTA的成绩，该成绩大幅超过OpenAI。

综上所述，

然而进入7月，Manus“疑问不断”。

更重要的是，

首先是7月8日，Manus被爆启动国内业务调整：其120名员工中，仅40余名核心技术人员迁往新加坡总部，其余人员均被裁撤；与此同时，公司正式将全球总部迁至新加坡，并同步退出中国市场。针对上述传闻，Manus回应：“基于公司自身经营效率考量，本站决定对部分业务团队进行调整。公司将继续专注核心业务发展，提升整体运营效率。”

很多人不知道，

随后在7月11日，Manus官方微博和小红书账号的素材清空。

通常情况下，

以下为Manus联合创始人季逸超博客全文：AI Agent 的上下文工程：从构建 Manus 中学到的经验

在 Manus 项目的最初阶段，我和我的团队面临一个关键决定：本站应该运用开源基础模型训练一个端到端的 Agent，还是基于前沿模型的上下文学习能力构建一个 Agent？

据相关资料显示，

在我从事 NLP 的第一个十年，本站没有这种挑选的奢侈。在遥远的 BERT 时代（是的，已经过去七年了），模型必须先进行微调——并评估——才能转移到新任务。这个过程通常每次迭代需要数周时间，即使与今天的 LLM 相比，这些模型都很小。对于飞快发展的应用，特别是在产品市场契合度（PMF）之前，这种缓慢的反馈循环是一个致命疑问。

这是我上一个创业公司的惨痛教训，我从头着手为开放信息提取和语义搜索训练模型。然后 GPT-3 和 Flan-T5 出现了，我的内部模型一夜之间变得无关紧要。讽刺的是，这些相同的模型标志着上下文学习的着手——以及一条全新的前进道路。

XM外汇财经新闻：

这个来之不易的教训使挑选变得明确：Manus 将押注于上下文工程。这使本站能够在几小时内而非几周内推出改进，并使本站的产品与底层模型保持正交：如果模型进步是上涨的潮水，本站希望 Manus 成为那条船，而不是固定在海床上的柱子。

根据公开数据显示，

然而，上下文工程证明并非那么直截了当。它是一门实验科学——本站已经重建了本站的 Agent 框架四次，每次都是在发现了更好的塑造上下文的方法之后。本站亲切地将这种手动架构搜索、提示调整和经验猜测的过程称为「随机研究生下降法」。它不够优雅，但很有效。

这篇资料分享了本站通过自己的「SGD」所达到的局部最优解。如果您正在构建自己的 AI Agent，我希望这些原则能帮助您更快地收敛。

说出来你可能不信，

围绕 KV-Cache 进行设计

如果我必须挑选仅一个指标，我认为 KV-cache 命中率是生产阶段 AI Agent最主要的单一指标。它直接影响延迟和成本。为了理解原因，让本站看看典型 Agent 如何运作：

在接收终端输入后，Agent 通过一系列插件运用来完成任务。在每次迭代中，模型根据当前上下文从预定义的动作空间中挑选一个动作。然后该动作在环境（例如，Manus 的虚拟机沙盒）中执行以产生观察结果。动作和观察结果被附加到上下文中，形成下一次迭代的输入。这个循环持续直到任务完成。

值得注意的是，

正如您可用想像，上下文随著每一步而增长，而输出——通常是结构化的函数调用——保持相对简短。这使得Agent 程序中的预填充和解码比例与聊天机器人相比高度倾斜。例如，在 Manus 中，平均输入与输出 token 比率约为 100:1。

XM外汇专家观点：

幸运的是，具有相同前缀的上下文可用利用 KV-cache，这大大减少了首个 token 的时间 (TTFT) 和推理成本——无论您运用的是自托管模型还是调用推理 API。本站谈论的不是小额节省：以 Claude Sonnet 为例，缓存的输入 token 成本为 0.30 美元/MTok(每百万 token)，而未缓存的成本为 3 美元/MTok——相差 10 倍。

尽管如此，

从上下文工程的角度来看，提高 KV-缓存命中率涉及几个关键实践：

概括一下，

1.保持提示前缀稳定。由于 LLM 的自回归特性，即使单个标记的差异也会使该标记之后的缓存失效。一个常见的错误是在系统提示的开头包含时间戳——尤其是精确到秒的时间戳。没错，它可用让模型告诉您当前时间，但它也会降低您的缓存命中率。

不可忽视的是，

2.使您的上下文仅追加。避免修改先前的处理或观察。确保您的序列化是确定性的。许多程式语言和库在序列化 JSON 对象时不保证稳定的键排序，这可能会悄悄破坏缓存。

3.在需要时明确标记缓存断点。某些模型给予商或推理框架不适配自动增量前缀缓存，而是需要在上下文中手动插入缓存断点。在分配这些断点时，要考虑潜在的缓存过期，并至少确保断点包含系统提示的结尾。

此外，如果您正在运用 vLLM 等框架自托管模型，请确保启用前缀/提示缓存，并且您正在运用会话 ID 等技术来一致地路由分布式工作节点间的请求。

XM外汇行业评论：

遮蔽，而非移除

XM外汇财经新闻：

随著您的 Agent 获得更多能力，其行动空间自然变得更加多变——便捷来说，插件数量爆炸性增长。最近流行的 MCP 只会火上浇油。如果您允许终端配置插件，相信我：总会有人不可避免地将数百个神秘插件插入到您精心策划的行动空间中。结果，模型更可能挑选错误的行动或采取低效的路径。简而言之，您的全副武装的 Agent 变得更笨了。

通常情况下，

一个自然的反应是设计一个动态行动空间——也许运用类似 RAG 的东西按需载入插件。本站在 Manus 中也尝试过这种方法。但本站的实验表明一个明确的规则：除非绝对必要，避免在迭代过程中动态添加或移除插件。这主要有两个原因：

概括一下，

1. 在大多数 LLMs 中，插件定义在序列化后位于上下文的前部，通常在系统提示之前或之后。因此，任何更改都将使所有后续处理和观察的 KV-缓存失效。

2. 当先前的处理和观察仍然引用在当前上下文中不再定义的插件时，模型会变得困惑。没有约束解码，这通常会导致模式违规或幻觉行为。

反过来看，

为了化解这个疑问，同时仍然改进行动挑选，Manus 运用上下文感知的状态机来管理插件可用性。它不是移除插件，而是遮蔽 token logits，在解码过程中防止（或强制）基于当前上下文挑选某些行动。

在实践中，大多数模型给予者和推理框架适配某种形式的回应前缀预填充，这允许您在不修改插件定义的情况下限制动作空间。通常有三种函数调用模式（本站将运用来自 NousResearch 的 Hermes 格式作为例子）：

•自动 – 模型可用挑选调用函数或不调用。通过仅预填充回复前缀来实现：<|im_start|>assistant

XM外汇消息：

•必需 – 模型必须调用函数，但挑选不受限制。通过预填充到插件调用标记来实现：<|im_start|>assistant

•指定 – 模型必须从特定子集中调用函数。通过预填充到函数名称的开头来实现：<|im_start|>assistant{「name」: "browser_

运用这个，本站通过直接遮蔽 token 的 logits 来限制动作挑选。例如，当终端给予新输入时，Manus 必须立即回复而不是采取动作。本站还特意设计了具有一致前缀的动作名称——例如，所有与浏览器相关的插件都以 browser_开头，命令行插件则以 shell_开头。这使本站能够轻松地强制 Agent 在给定状态下只从某个特定插件组中进行挑选，而无需运用有状态的 logits 处理器。

简要回顾一下，

这些设计有助于确保 ManusAgent 循环保持稳定——即使在模型驱动的架构下。

更重要的是，

运用文件系统作为上下文

但实际上，

现代前沿大语言模型现在给予 128K 个 token 或更多的上下文窗口。但在真实世界的 Agent 场景中，这通常不够，有时甚至是一种负担。有三个常见的痛点：

请记住，

1. 观察可能非常庞大，尤其是当 Agent 与网页或 PDF 等非结构化数据互动时。很容易超过上下文限制。

综上所述，

2. 模型性能往往会下降，超过一定的上下文长度后，即使技术上支援该窗口大小。

3. 长输入成本高昂，即使运用前缀缓存。您仍需要为传输和预填充每个标记付费。

简而言之，

为了化解这个疑问，许多 Agent 系统实现了上下文截断或压缩策略。但过度激进的压缩不可避免地导致信息丢失。这个疑问是根本性的：Agent 本质上必须基于所有先前状态预测下一个动作——而您无法可靠地预测哪个观察可能在十步之后变得至关主要。从逻 XM外汇官网辑角度看，任何不可逆的压缩都带有风险。

XM外汇消息：

这就是为什么本站在 Manus 中将文件系统视为最终上下文：大小不受限制，本质上持久存在，并且可由 Agent 自身直接处理。模型学会按需写入和读取文件——不仅将文件系统用作储存，还用作结构化的外部记忆。

XM外汇财经新闻：

本站的压缩策略始终设计为可恢复的。例如，只要保留 URL，网页的素材就可用从上下文中删除，如果沙盒中仍然有文件路径，则可用省略文件的素材。这使 Manus 能够缩短上下文长度而不会永久丢失信息。

简而言之，

在开发这个用途时，我发现自己在想像状态空间模型 (SSM)要在 Agent 环境中有效运作需要什么条件。与 Transformers 不同，SSMs 缺乏完整的注意力机制，并且在处理长距离的向后依赖关系时表现不佳。但如果它们能够掌握基于文件的记忆——将长期状态外部化而不是保持在上下文中——那么它们的速度和效率可能会开启一种新型Agent。基于 Agent 的 SSMs 可能是神经图灵机的真正继承者。

通常情况下，

通过复述操控注意力

如果您运用过 Manus，您可能注意到一个有趣的现象：在处理多变任务时，它倾向于创建一个 todo.md 文件——并在任务进行过程中逐步更新它，勾选已完成的项目。

XM外汇专家观点：

这不仅仅是可爱的行为——这是一种操控注意力的刻意机制。

XM外汇用户评价：

Manus 中的典型任务平均需要大约 50 次插件调用。这是一个很长的循环——由于 Manus 依赖 LLM 进行决策，它很容易偏离主题或忘记早期目标，尤其是在长上下文或多变任务中。

通过不断重写待办事项列表，Manus 将其目标重述到上下文的末尾。这将全局计划推入模型的近期注意力范围，避免了「迷失在中间」的疑问，并减少了目标错位。实际上，它正在运用自然语言来使自己的焦点偏向任务目标——而无需特殊的架构更改。

综上所述，

保留错误的素材

其实，

Agent 会犯错。这不是一个错误—这是现实。语言模型会产生幻觉，环境会返回错误，外部插件会出现异常，而意外的边缘情况随时都会出现。在多操作方法任务中，失败不是例外；它是循环的一部分。