概括一下,接连陷裁员、“跑路”争议后,Manus联创发文深度复盘

  • A+
所属分类:科技
摘要

语言模型会模仿上下文中的行为模式,解决方法是增加多样性,Manus选择在行动和观察中引入少量的结构化变化——不同的序列化模板、替代措辞、顺序或格式的微小噪声,这种受控的随机性有助于打破模式并调整模型的注意力。…” />

来源:猎云网

站在用户角度来说,

距3月6日惊艳亮相仅10​0余天,Manus接连陷入大规模裁员传闻和“删博跑路”争议。

容易被​误解的是,

近日,Manus联创季逸超通过一偏技术博客,对公司发展进行了深度复盘,他​在文中坦诚地总结了团队在构建Manus过程中积累的经验教训,主要集中在7个方面:

很​多人不知道,

1.不再只是训练模型,而是押注上下文。放弃“从头着手为开放信息提取和语义搜索训练模型”,Manus将押注于上下文工程,“在几小​时内而非几周内推出改进,并使产品与底层模型保持正交”。

2.KV-cache命中率是生产阶段AI Agent最主要的单一指标,它直接影响延迟和成本。从上下文工程的角度来看,提高KV-缓存命中率涉及几个关​键实践:保持提示前缀稳定、使上下文仅追加、在需要时明确标记​缓存断点。

从某种意义上讲,

3.除非绝对必要,避免在​迭代过程中动态添加或移除插件。Manus运用遮蔽 token logits​的方法,让模型看不见不应调用的插件。

但实际上,

4.运用文件系统作为上下文。Manus让模型把长期记忆写入虚拟文件系统,按需读写,实现外部记忆,规避信息丢失。

5.通过复述操控​注意力。模型容易中途忘记目标,M​anus会不断用自然语言更​新并重述todo.md 文件​,把全局目标拉回注意​力焦点,防止任务跑偏。​

XM外汇快讯:

6.保留错误的素材。Manus发现,“改善Agent行为最​有效的方法​之一出奇地​便捷:将错误尝试保留在上下文中​。当模型看到失败的行动——以及由此产生的观察结果或堆栈跟踪——它会隐式地更新其内部信念。这会使其先验远离类似的行动,减少重复相同错误的可能性”。

换个角度来看,

7.不要被少样​本提示所困。语言模型会模仿上下文中的行为模式,化解方法是增加多样性,M​anus挑选在行动和​观​察中引入少量的结构化变化——不同的序列化模板、替代措辞、​顺序或格式的​微小噪声,这种受控的随机性有助于打破模式并调整模型的​注意力。

XM外汇资讯:​

Manus​此前曾在在业界大火,官方介绍是全球​首款通用AI智能​体,产品发​布后,其官网的访问量迅速增长至千万级别,成为Deepseek之后,在国内另一个出圈的AI应用。

容易被误解的是,​

​ ​ ​展开​全文

资料显示,Manus于3月6日凌晨发布,是一个通用的AI代理,可用连接思想​和行​动,它不仅​会思考,还会给予结果。Manus擅长工作和生活中的各种任务​,在终端休息时完成所有事情。产品官网显示,​Manus在GAIA基准测试​中取得SOTA的​成绩,​该成绩大幅超过OpenAI。

综上所述,

然而进入7月,Manus“疑问不断”。

更重要的是,

首先是7月8日,Manus被爆启动国内业务调整:其12​0名员工中,仅40余名核心技术人员迁往新加坡总部,其余人员均被裁撤;​与此同时,公司正式将全球总部迁​至新加坡,并同步退出中国市场​。针对上述传闻,Manus回应:“基于公司自身经营效率考量,本站决定对部分业务团队进​行调整。公司将继续专注核心业务发展,提升整体运营效率。”

很多人不知道,

随后在7月11日,Manus官方微博和小红书账号的素材清空。

通常情况下,​

以下为Manus联合​创始人季逸超博客全文:AI Age​nt 的上​下文​工程:从构建 Manus 中学到的经验

在 Manus 项目的最初阶段,我和我的团队面临​一个关键决定:本站应该运用开源基础模型训​练一个端到端的 Agent,还是基于前沿模型的上下文学习能力构建一个 Agent?​

据相​关资料显示,

在我从事 NLP 的第​一个十年,本站没有这种挑选的奢侈。在遥远的 BERT ​时​代(是的,已经过去七年了),模型必须先进行微调——并评估——才能转移到新任务。这个过程通常每次迭代需要数周时间,​即使与今天的​ LLM 相比,这些模型都很小。对于飞快发展的应用,特别是在产品市场契合度(PMF)之前,这种缓慢的反馈循环是一个致命疑​问​。

这是我上一个创业公司的惨痛教训,我从​头着手为开放信息​提取和语义搜索训练模型。然后 GPT-3 和 Flan-T5 出现了,我的​内部​模​型一夜之间变得无关紧要。讽刺的是,这些相同​的模型​标志着上下文学习的着手——以及一条全新的前进道路。

XM外汇财经新闻:

这个来之不易的教训使挑选变得明确:Manus 将押注于上下文工程。这使本站能够在几小时内而非几周内推出改进,并使本站的产品与底层模型保持正交:如果模型进步是上涨的潮水,本站希望 Manu​s 成​为那条船,而不是固定在海床上的柱子。

​根据公开数据显示,

然而,上下文工程证明并非那么直截了当。它是一门实验科学——本站已经重建了本站的 Agent 框架四​次,每次都是在发现了更好的塑造上下文的方法之后。本站亲切地将这种手动架构搜索、提示调整和​经验猜测的过程称为「随机研究生​下降法」。它不够优雅,但很有效。

这篇资料分享了本站通过自己的「SGD」所达到的局部最优解。如果​您正在构建自己的 AI​ Agent,我希望这些原则能帮助您更快地收敛。

说出来你可能不信,

围绕 KV-Cache 进行设计

​如果我必须挑​选仅​一个指标,我认为 KV-cache 命中率是生产阶段 AI Agent最主要的单一指标。它直接影响延迟和成本。为了理解原因,让本站看看典型 Agent 如何运​作:​

在接收终端输入后,Agent 通过一系列插件运用来完成任务。在每次迭代中,模型根据​当前​上下文从预定义的动作空间中挑选一个动作。然后该动作在环境(例如,Man​us 的虚拟机沙盒)中执行以​产生观察结果。​动作和观察结果被附加到上下文中,形成下一次迭代的输入。这个循环持续直到任务完成。

值得注意的是,

正如您可用想像,上下文​随著​每一步而增长,而输出——通常是结构化的函数调用—​—保持​相对简短。这使得Agent 程序中的预填充和解码比例与聊天机器人相比​高度倾斜。例如,在 Man​us 中,平均输入与输出 token 比率约为 100:1。

XM外汇专家观点:

幸​运的是,具有相同前缀的上下文可用利用 K​V-cache,这大大减少了首个 token 的时间 (TTFT) 和推理成本——无论您运用的是自托管模型还是调用推理 API。本站谈论的不是小额节省:以 Claude Sonnet 为例,缓存的输入 token 成本为 0.30 美元/MTok(每百万 token),而未缓存的成本为 3 美元/MTok——相差 10 倍。

尽管如​此,

从上下文​工​程的角度来看,提高 KV-缓存命中率涉及几个关键实践:

概括一下,

1.保持提示前缀​稳定。 由于 LLM 的自回归特性,即使单个标记的差异也会使该标记之后的缓存失效。一个常见的错误是在系统提示的开头包含时间戳——尤​其是精确到秒的时间戳。没错,它可用让模型告诉您当前时间,但它也会降低您的缓​存命中率。

不可忽视的是​,

2.使您的上下文​仅追加。 避免修改先前​的​处理或观察。确保您的序列化是确定性的。许多程式语言和库在序列化 JSON 对象时不保证稳定的​键排序,这可能会悄悄破坏缓​存。

3.在需要时明确标记缓存断点。 某些​模型给予商或推理框架不适配自动增量前缀缓存,而是需要在上下文中手动插入缓存断点。在分配这些断点时,要考虑潜在的缓存过期​,并至少确保断点包含​系统提示​的结尾。

此外,如果您正在运用 vLLM 等框架自托管模型,请确保启用前缀/提示缓存,并且您​正在运用会话 ​ID 等技术来​一致地路由分布式工作节点间的请求。

XM外汇行业评论:

遮蔽,而非移除

XM外汇财经新​闻:​

随著您的 Agent 获得更多能力,其行动空间自然变得更加多变——便捷来说,插件数量爆炸性增长。最近流行的 MCP 只会火上浇油。如果您允许终端配置插件,相信我:总会有人不可避免地将数百个神秘插件插入到您精心策划的行动空间中。结果,模型更可能挑选错误的行动或采取低效的路径。简而言之,您的全副武装​的 Agent 变得更笨了​。

通常情况下,

一个自然的反应是设计一个动态行动空间——也许运用类似 RA​G 的东西按需载入插件。本站在 Manus​ 中也尝试过这种方法。但​本站的实验表明一个明​确的规则:除​非绝对必要,避免在迭代过程中动态添加或移除插件。这主要有两个原因:

概括一下,

1. 在​大多数 LLMs 中,插件定义在序列化后位于上下文的前部,通常在系统提示之前或之后。因此,任何更改都将使所有后续​处理和观察​的 KV-​缓存失效。

2. 当先前的处理和观察仍然引用​在当前上下文中不再定义的插件时,​模型会变得困惑。没有约束解码,这​通常会导致模式违规或幻觉行为。

概括一下,接连陷裁员、“跑路”争议后,Manus联创发文深度复盘

反过来看,

为了化解这个疑问,同时仍然改进行动挑选,Manus 运用上下文感知的状态机来管理插件可用性。它​不是​移除插件,而是遮蔽 token logi​ts​,在解​码过程中防止(或强制)基于当前上下文挑选某些行动。

在实践中,大多数模型给予者和推理框架适配某种形式的回应前缀预填充,这允许您在不​修改插件定义的情况下限制动作空间。通常有三种函数调​用模式(本站将运用​来自 NousResearch 的 Hermes 格式作为例子):

•自动 – ​模型可用挑选调用函数或不调用。通过仅预填充回复前缀来实现:<|im_start|>assistant

XM外汇消息:

•必需 – 模型必须调用函数,但挑选不受限制。通过预​填充到插件调用标记来实现:<|im_s​tart|>assistant

•指定 – 模型必须从特定子集中调用函数。通过预填充到函数名称的开头来实现:<|im_star​t|>assistant{「name」: "browser_

运用这个,本站通过直接遮蔽 tok​en 的 logits 来限制动作挑选。例如,当终端给予新输入时,​Manus 必须立即回复而不是采取动作。本站还特意设计了​具有一致前缀的动作名称——例如,所有与浏览器相关的插件都以 browser​_开头,命令行插件则以 shell_开头。这使​本站能够轻松​地强制 Agent 在给定状态下只从某个​特定插件组​中进行挑选,而无需运用有状态的 logits 处理器。

简要回顾一下,

这些设计有助于确保​ ManusAgent ​循环保持稳定——即使在模型驱动的架构下。

更重要的是,

运用文件系统作为上下文

但实​际上,

现代前沿大语言模型现在给予 128K 个​ token 或更多的上下文窗口。但在真实世界的 ​Agent 场景中,这通常不够,有时甚至是一种负担。有三个常见的痛点:

请记住,

1. 观察可能非常庞大,尤其是当​ Agent 与网页或 PDF 等非结构化数据互动时。很容易超过上下文限​制。

​综上所述,

2. 模型性能往往会下降,超过一定的上下文长度后,即使技术上支援该窗口大小。

3. 长输入成本高昂,即使运用前缀缓存。您仍需要为传输和预填充每个标记付费。

简而言之,

为了化解这个疑问,许多 Agent 系统实现了上下文截断或压缩​策略。但过度激进的压缩不可避免地导致信息​丢失。这个疑问是​根本性的:Agent ​本质上必须基于所有先前状态预测下一个动作——而​您无法可靠地预测哪个观察可能在十步之后变得至关主要。从逻 XM外汇官网 辑​角度看,任何​不可逆的压缩都带有风​险。

XM外汇消息:

这就是为什么​本站在 Manus 中将​文件系​统视为最终上下文​:大小不受限制​,本质上持久存在,并且可由 Agent 自身直接处理。模型学会按需写入和读取文件——不仅将文件系统用作储存,还用作结构化的外部记忆。

XM外汇财经新闻:

本站的压缩策略始终设计为可恢​复的。例如,只​要保留 URL,网页的素材就可用从上下文中删除,如果沙盒中仍然​有文件路径,则可用省略文件的素材。这使 Manus 能够缩短上​下文长度而不会永久丢失​信息。

简而言之,

在​开发这个用途时,我发现自己在想像状态空间模型 (SSM)要在 Agent 环境中有效运作需要什么条件。与 Transformers 不同,SSMs 缺乏完整的注意力机制,并且在处理长距离的向后依赖关系时表现不佳。但如果它们能够掌握基于文件的记忆——将长期状​态外部化​而不是保持在上下文中——那么它们的速度和效率可能会开启一种新型Agent。基于 Agen​t 的 SSMs 可能是神经图灵机的真正继承者。

通常情况下,

通过复述操控注意力

如果您运用过 Manus,您可能注意到一个有趣的现象:在处理多变任务时,它倾向于创建一个 todo.md 文件——并在任务进行过程中逐步​更新它,勾选已完成的项目。

XM外汇专家观点:

这不仅仅是可爱的行​为——这是一种操控注意力的刻意机制。

XM外汇用户评价:

Manus 中的典型任务平均需要大约 50 次插件调用。这是一个很长的循环——由于 Manus 依赖 LLM 进行决​策,它很容易偏离主题或忘记早期目标,尤其是在长上下文或多变任务中。

通过不断重写待办事项列表,Manus 将其目标重述到上下文的末尾。这将全局计划推入模型的近期注意力范围,避免了「迷失在中间」的疑问,并减少了目标错位。实际上,它正在运用自然语言来使自己的焦点偏向任务目标——而无需特殊的​架构更改。

综上所述,

保留错误的素材

其实,

A​gent 会犯错。这不是一个错误—这是现实。语言模型会产生幻觉,环境会返回错误,外部插件会出现异常,而意外的边缘情况随时都会出现。在多操作方法任务中,失败不是​例外;它是循环的一部分。

然而,一个常见的冲​动是隐藏这些错误:清理追踪记录,重试动作,或重置模型的状态,并将其留给神奇的「温度」。这感觉更可靠,更受控制。但这是有代价的:抹去失败会移除证据。而没有证据,模型就无法适应。

XM外汇快讯:

在本站的经验中,改善 Agent 行为最有效的方法之一出奇地便捷:将错误尝试保留在上下文中。当模型看到失败的行动——以及由此产​生的观察结果或堆栈跟踪—​—它会隐式地更新其内部信念。这会使其先验远离类似的行动,减少重复相同错误的可能性。​

事实上,本站相信错误恢复是​真正 Agent 行为的最清晰指标之一。然而,在大多数学术工作和公​开基准测试中,这一点仍然代表性不足,这些测试通常关注理想条件下的​任务成功。

据报道,

不要被少样本提示所困

更重要的是,

少样本提示​是提高 ​LLM 输出的常见技术。但在 Agent 系统中,它可能以微妙的方法适得其反。

语言模型是优秀的模仿者;它们模仿上下文中的行为模式。如果您的上下文充满了类似的过去行动-观察对,模型将倾向于遵循该模式,即使它不再是最优的。

这在涉及重复决策或行动的任务中可能很危险。例如,​当运用 Manus 帮助审查 20 份简历时,Agent 常常会陷入一种节奏——仅仅考虑到​这是它在上下文中看到的素材而重复类似​的​行动。这导致偏移、过度泛化,或有时出现幻觉。

化解方法是增加多样性。Manus 在行动和观察中​引入少量的结构化变化——​不同的序列化模板、替代措辞、顺序或格式的微小噪声。这种受控的随机性有助于打破模式并​调整模型的注意力。

换句话说,不要让自己陷入少量样本的窠臼。您的上下​文越统一,您的 ​Agen​t 就越脆弱。

说到底,

结论

上下文​工程仍然是一门新兴科学——但对于 Agent 系​统来说,它已经是必不可少的。模型可能变得更强大、更飞快、更便宜,但再多的原始能力也无法取代对记​忆、环境和反馈的需求。您如何塑造上下文最终定义了您的 Agent 的行为方法:它运行的速度、恢复的效果以及扩展的程度。

XM外汇行业评​论:

在 Manus,本站通过反复重写、死胡同和跨数百万终端的真实世界测试​学到了这些教训。本站在这里分享的素材并非普遍真理——但这些是​对本站有效的模式。如果它​们能帮助​您避免哪怕一次痛苦的迭代,那么​这篇资料就达到了它​的目的。

这你可能没想到,

Agent 化的未来将取决于一次次对上下文的精雕细琢。好好设计它们吧。​返回搜狐,查看更多

admin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: