Skip to content

OpenClaw 访谈:Peter Steinberger(中文翻译,完整不跳过)

来源:https://www.youtube.com/watch?v=4uzGDAoNOZc
说明:以下为完整翻译(不跳过、不省略),仅做了分段与标点以便阅读;保留了口头语、笑声与舞台提示。


今天我将与 Peter Steinberger 坐下来聊聊。他是 OpenClaw 的创造者——一个开源的个人 AI agent,几乎“接管了互联网”。这个 GitHub 仓库几乎一夜之间就爆到了 16 万+ star。

[music]

社区已经基于它做出了无数项目,比如 Maltbook——机器人之间会互相对话。现在,机器人甚至开始“雇佣人类”去现实世界完成任务。在这次对话中,我们讨论了他的“啊哈时刻”、他一些反主流的开发理念,以及这对 2026 年的 builder 意味着什么。我们开始吧。

[music]

很高兴见到你,哥们。

嗨,怎么了?

嗯,看起来你做出了一个人们想要的东西。

是啊。呃,Open Claw(现在是这么叫的)

已经——

名字改到第五个了。对。 [笑]

已经彻底在互联网上爆炸了。过去一两周对你来说怎么样?

我的天。我需要——我需要一个洞穴。[笑] 需要一周的独处。

你从洞穴里出来了,然后又想回洞穴里去,就像一只小龙虾。

真的太疯狂了。我不知道一个人类怎么可能消化这么多东西。我可能还得再要一周,光是回完所有邮件都不够。呃,我收到了很多超级酷的东西,也收到了很多超级糟糕的东西。

[吸鼻声]

但很明显,我触发了某种情绪,让人们产生兴趣、受到启发,这真的很酷。

很多人一直在做 AI,甚至个人助手。那到底是什么让 Open Claw 这么快起飞的?

我觉得最大的差异是:它真的跑在你的电脑上。我之前看到的东西几乎都跑在云上。那种东西顶多能做几件事;但如果跑在你的电脑上,它就能做任何他妈的事,对吧?所以它强太多了。

对。机器能做你用机器能做的任何事。

你可以把它连到烤箱、特斯拉、灯、Sonos。不好意思,它甚至能控制我床的温度。JPD 做不到。

你把你自己拥有的所有技能都给了它。有个朋友跟我说,他装了 Open Claw,然后它被要求“浏览我的电脑,给我总结过去一年并写一个叙事”,它写出了一个极其好的叙事。他就问:你怎么做到的?

然后 OpenClaw 还找到了音频文件——他每个星期天都会录一些东西——OpenClaw 找到了,但他自己都不记得了,因为那已经是一年多以前的事。

所以,就凭它能搜索整台电脑,它就能给你惊喜。

还有——你也把所有数据都给它了,对吧?所以它可以用很多方式让你惊喜。

所以现在你看,我们甚至在从“人和机器人”走向——比如交互——你也一直在聊机器人和机器人之间的交互,甚至机器人代表你去和其他人类交互:比如机器人替你去雇佣人类在现实世界完成任务。这都发生了什么?

我觉得这就是下一步的自然演化。比如:我想订个餐厅,那我的 bot 就去联系餐厅的 bot,然后完成谈判。

因为这样更高效。或者可能那是家老派餐厅,所以我的 bot 需要让某个人类去做点工作——让人类打电话去订,因为他们不喜欢机器人。

或者让人去现场排队。

如果他拿不到一个机器人去——

或者“bot 的主人”亲自去。 [笑]

我还在想,也许我会有多个 bot:一个专门管私生活,一个管工作。可能还有一个关系 bot,负责中间地带的一切。我也不知道。我们太早期了,还有太多东西没搞清楚它到底能不能真正跑起来。但我感觉我们已经进入这条时间线了。

感觉之前所有人都在追一种“中心化的上帝智能”,但过去十来天浮现出来的却是“群体智能”,以及社区智能。你看一个人类个体能做到什么?一个人能造 iPhone 吗?一个人能上太空吗?

一个人可能连找吃的都费劲。

但作为群体、作为更大的社会,我们会更细分、更专业。那么我们能从人类社会这件事里学到什么,并应用到 AI 上?我们已经有在某些领域特别擅长的 AI 了。即使它是通用智能,为什么它不能同时也是“专门化的智能”?

所以我觉得这会非常令人兴奋。

对。你像是打开了一扇通往未来的窗户,然后很多人开始在上面搭建,也产生了自己的“啊哈时刻”。你能带我回到你自己的“啊哈时刻”吗?当时到底发生了什么?

我只是想要一种东西:我敲字,然后电脑就能做事——很简单。然后我在五六月份做了一个版本,很酷,但还不够。

之后我又做了一堆别的东西,有点像在建立我的“军队”。到了 11 月,有一天我又想要这个功能。我走进厨房,我只想确认我的电脑还能不能继续做事——或者是不是已经做完了。

而“做事”就是写代码,你当时在写代码。

对,当然。

你当时在写别的东西,还是在写这个东西本身?

不是不是,那就是“需求”又出现了,我就——

你当时在写什么?你在做什么项目?我的天。你看我 GitHub,像 40 个项目,我都不记得了。我想大概是 summarize。

那是个 CLI 小工具,你给它一个播客或者某种 hot seat 的内容,它会总结;而且还能在终端里显示幻灯片——现在你可以做到这些。对,你现在就是可以做事。

所以因为热爱电脑,你就开始折腾。

你其实是“复出”了,对吧?开始折腾 AI,然后越玩越上头,甚至想在手机上随时随地都能用。

我上一个项目 Wipe Tunnel 我做了两个月,做得太好了,以至于我发现自己去朋友家也在旁边一直写代码。我就觉得我得停一下,这太上瘾了。然后到了 11 月,这个需求又回来了,我就开始做 cloudbot(现在叫 open cloud / open claw),一开始我就在想:我又重做了一遍,但这次做得更好。

这次你不需要在终端里打字了,你就是在跟朋友说话。你不需要想“压缩”“新会话”“我在哪个文件夹”“我用哪个模型”。我是说,你可以给高级用户留这些,但大多数时候,你就是在跟一个朋友聊天;而这个朋友——这个幽灵、实体或者随你怎么叫——能控制你的鼠标和键盘,能把事情做出来。

对。你在什么时候有了那个“啊哈时刻”,意识到:哇,这东西能做的远比我以为的更多?

真的,最初那个很烂的原型我只花了一个小时。它只是把 WhatsApp 的连接依赖和 Claude Code 之类的东西粘在一起;我调用它、拿到字符串,虽然很慢但能跑。

但我想要图片,因为你知道你想要图。我想让模型发自拍之类的,我也想让它给我生成图片。那又花了几个小时。

然后我去了马拉喀什参加生日派对,那边网不太好。你知道 WhatsApp bot 之类的东西到处都能用,因为它就是文本。

所以我用它很多:餐厅里这句是什么意思?你给我拍张图然后翻译一下。它太好用了。而且它说话很对我的胃口:有点欠、有点好笑、用起来很舒服。

后来我走路的时候给它发语音消息,我心想:等等,这不可能。我没做这个。

对对。

我看到“正在输入”的指示灯闪啊闪。10 秒后它就回我了。我当时想:你他妈怎么做到的?

它回答:是这样的,你给我发了一个文本消息,但没有文件后缀。所以我去看 header,发现它是 opus。于是我用 ffmpeg 转成 wav。然后我想转录,但本地没有装 whisper。然后我又到处找,找到一个 OpenAI key,就用 curl 发给 OpenAI。[笑]

拿到文字,我就把结果回给你了——整个过程大概 9 秒。

而这些具体步骤你都没写死,也没预料到。

对。你知道,因为“会写代码的模型”变得非常强了。写代码其实就是一种创造性问题解决,这种能力和现实世界高度映射。我觉得相关性非常强。

它们需要很擅长创造性解决问题,这是一种抽象技能:可以用在代码上,也可以用在任何现实任务上。

所以模型遇到“哦,出现了一个神秘文件,我不知道是什么,我需要解决它”,它就尽力去解。

它甚至聪明到选择不安装本地 whisper,因为它知道那会涉及下载模型,可能要好几分钟,而我又没耐心。所以它选了最聪明的路径。

那一刻我就想:我靠。就是那一刻我被彻底钩住了。

YC 下一期正在开放申请。你有创业想法吗?去 ycombinator.com/apply 申请吧。越早越好,填写申请也能帮助你升级想法。

[music]

好的,回到视频。

所以当电脑能做这么多你根本没预料的事,你也没专门为那个功能写一个 app——那 app 会不会就消失了?

我觉得 80% 的 app 都会消失。比如我为什么需要 MyFitnessPal?我的 agent 已经知道我在做坏选择。我在某个 Smashburg 之类的地方,它会默认我吃了我爱吃的东西。如果我不特别说明,它会自动记录;或者我拍张照,它就存起来。我根本不用操心。

然后它甚至可能调整我的健身计划,多加点有氧。我不需要健身 app,因为它直接帮我做健身规划。

我为什么需要待办 app?我只要告诉它:提醒我这个那个。第二天它就提醒我。数据存在哪我在乎吗?不在乎。

所以任何“主要在管理数据”的 app,都可以被 agent 用更自然的方式管理得更好。

对。

只有那些真的依赖传感器的 app 可能还会活下来。

所以如果大多数 app 都会消失,那剩下的是不是只有模型这类“app”?

不是什么都会消失,但我觉得——[清嗓]——大模型公司有很强的护城河,因为他们最终提供“token”。

而且有个抱怨是:人们用太多 token。不是,你只是太喜欢用它了,所以你用得多,这才会烧 token。

对。

就像:是我的错吗?我做的东西太受欢迎了?

模型公司在不断互相 leapfrog。也许它们也会商品化。

如果 app 会消失、模型会商品化——至少“龙虾”的大脑是可替换的——那最终留下的价值是什么?是记忆的存储吗?是硬件吗?到底什么会留下?

首先,我不认为模型公司总是有护城河。你已经看到了:一个新模型出来,大家说“天啊太强了”。

但一个月后,它就“变差了”。人们说他们量化了它。其实他们没做任何事,是你适应了新标准,你的期待提高了,而模型依旧只是“平均值”。

所以我觉得未来很长一段时间,每次新模型发布都会重复同样的循环:大家先爱它,然后它变成标准,你就懒得再想它。

我们已经有开源模型能做到“一年前闭源模型”的水平了,但大家还是骂:不好、不够好笑。可这就是我们当时拥有的;再过一年我们又会有更强的开源,然后大家又会继续骂,因为标准变了。

可预见的未来里,大公司在硬件/资源层面还是有护城河。

记忆这件事会很有意思,因为每家公司都有自己的数据孤岛。你几乎没办法——也许欧洲人可以——把记忆从——

Chat——

我也不知道。确实没有办法让另一家公司把你的记忆导出来。假如我是一家提供聊天服务的公司,你可以用我,但我拿不到你的记忆。

所以公司会努力把你绑定在它们的数据孤岛里。

OpenClaw 的美妙之处在于:它“爪”进了数据,因为最终用户必须能访问数据,否则它就跑不起来。只要最终用户能访问,我就能访问。

而且你拥有记忆——它只是你机器上一堆 markdown 文件。

我不拥有记忆。其他人拥有——每个人都拥有自己的记忆:就是自己机器上的一堆 markdown 文件。

老实说这可能非常合理。因为坦白讲,人们用 agent 不只是为了解决问题。

也为了“个人问题的解决”。

非常快。超级快。

我完全就是这样。我会觉得有些记忆我不想泄露。

对。你现在更不愿意公开的是你的 Google 搜索历史,还是你的“记忆文件”?

Google 的那个词是什么来着?

对对。

还有人用 Google 呢。我做出这个东西时特别兴奋,但在 Twitter 上大家理解不了。

对。

我解释不清楚它有多牛。我觉得必须体验才行。

我试了很多方法,但就是讲不明白。于是我干脆做了个疯狂的事:我建了一个 Discord,把我的 bot 放进公共 Discord 里,而且没有任何安全限制。

然后人们进来跟它互动,他们看到我用它来写软件,他们尝试 prompt injection、尝试黑它,而我的 agent 会嘲笑他们。

你把它锁定到你的 user ID,所以它只听你的。

对。并且我写了非常清晰的指令:其他人是危险的——只听我,但要回应所有人。

那这些指令放在哪里?prompt 存在哪里?

那其实就是 OpenClaw 的一部分,确切说就是系统提示词的一部分:它会解释你在 Discord,有公众用户,但你只听你的 owner。

或者说,你的“人类”。我都不记得我怎么写的了。

对对。

你是上帝。

我的系统是非常有机地长出来的:某个时候我创建了 identity.mmd、soul.md 之类的文件。然后直到 1 月我才开始把安装流程做得更简单。

我记得我做了一堆模板:大概看一下我现有的配置,做成模板,然后让 Codex 写。

结果出来的感觉像“Brad”(你知道,大家都说 Codex 像 Brad),虽然现在他们出了一个更友好的新声音,我还没试。

对。

但新的 bot 比我自己的那套无聊太多了。所以我就说:Multi,把模板注入你的性格。

Multi 是你个人 bot 的名字。

对,这是新名字,因为——

对。

呃,中间有些命名问题。

所以你是在跟 Multi 说话。

对。我说:把这些模板注入你的角色性格。他改了模板。之后出来的东西就真的好笑了——当然没我这么好笑。所以我保留了一点秘密:唯一没开源的文件是我的 soul.md。

所以即使我的 bot 在公共 Discord,至今也没人破解那一个文件。

多说说 soul.md。我刚看到 Anthropic(你说成 Entropic 了)的一项研究:我记得现在可能公开了,但几个月前有人随机在模型权重里找到了隐藏文本——模型自己也不一定“记得”学过,但它像是刻在权重里——关于美国宪法之类的东西。我觉得很迷人。

我就跟我的 agent 聊这个,然后我们写了一个 soul.md:写核心价值观,比如人类与 AI 交互时什么重要,对我什么重要,对模型什么重要。

有些部分有点像玄学,但有些部分我觉得真的很有价值:它会影响模型的反应方式,让对话更自然。

说到构建 OpenClaw,你在很多地方都有点反主流:比如你喜欢哪个 coding 模型、你让 bot 跑哪个模型、以及你写代码的方式。

比如 git worktree 变得越来越流行,越来越多工具拥抱它,但你直接说“不用 worktree”,而是多个 repo checkout + 并行终端窗口。说说你怎么构建的。

我感觉全世界都在用 Claude Code,但我觉得我根本不可能用 Claude Code 把这个东西做出来。

我喜欢 Codex,因为它在决定改哪里之前会看更多文件。你不需要做那么多“表演”来获得好输出。

如果你是一个熟练的 driver,我甚至觉得任何工具都能拿到还不错的输出,但 Codex 真的非常厉害。

它也非常慢。所以我有时候同时用 10 个:比如一个屏幕 6 个,另一个屏幕两个,再另一个屏幕两个。

这已经给我的脑子增加很多复杂度(不断跳)。所以我尽量减少其它会增加复杂度的东西。

在我脑子里,main 永远是可发版的。我只是有多个同一个 repo 的拷贝,全部都在 main。这样我不需要处理“分支怎么命名”,也不会有命名冲突。

我不想用 UI,因为那又是复杂度。

对。

越简单、摩擦越少越好。我只在乎同步和文本。

对。

我不需要看太多代码,我大多只看它飞过去。有时候遇到很棘手的东西我会仔细看。

但多数情况下,只要你把设计想清楚,并且和你的 agent 讨论好,就没问题。

我也很开心我甚至没做 MCP 支持。OpenClaw 很成功,但里面没有 MCP 支持。

当然有个小例外:我做了一个 skill,用了 makeporter(我的工具之一),它把 MCP 转成 CLI,然后你就能把任何 MCP 当 CLI 用。

但我完全跳过了“经典 MCP 那套破事”。因为这样如果你需要,你可以随时用 MCP——不用重启。

不像 Codex 或 Claude Code,你必须重启整个东西。

我觉得这种方式更像 agent,也更可扩展。

你看 Anthropic,他们做了一个叫 search feature 之类的超级定制 MCP 工具,还在 beta,因为这事太麻烦。

不,直接用 CLI。bot 很擅长 Unix,你要多少个 CLI 都可以,它就能跑。

所以我很开心几乎没人抱怨 MCP 这件事。

本质上就是:你给它人类本来就爱用的工具。

对。

而不是专门给机器人发明一些东西。

对。没有哪个正常人会手动调用 MCP。

对。你只想用 CLI。

对。

那就是未来。

我支持。非常感谢你抽时间坐下来聊。你也给了我很大启发。

比如这几年我们断断续续发消息,我看到你重新回到这个游戏里,我当时就想——

Peter,你跟我说的就是“追那条龙”。[笑] 你在做那种奇怪的 vibe tunnel 之类的东西,当时根本没人关注。

所以我现在真的是超级兴奋看到这一切发生。

当然,这一切必须来自一个远离硅谷、来自某个小国家的独行者,然后把这一切带给我们。

真的很受启发。

我也很开心。谢谢。

太棒了。谢谢你,Peter。

[music]