OpenClaw 访谈：Peter Steinberger（中文翻译，完整不跳过）

来源：https://www.youtube.com/watch?v=4uzGDAoNOZc
说明：以下为完整翻译（不跳过、不省略），仅做了分段与标点以便阅读；保留了口头语、笑声与舞台提示。

今天我将与 Peter Steinberger 坐下来聊聊。他是 OpenClaw 的创造者——一个开源的个人 AI agent，几乎“接管了互联网”。这个 GitHub 仓库几乎一夜之间就爆到了 16 万+ star。

[music]

社区已经基于它做出了无数项目，比如 Maltbook——机器人之间会互相对话。现在，机器人甚至开始“雇佣人类”去现实世界完成任务。在这次对话中，我们讨论了他的“啊哈时刻”、他一些反主流的开发理念，以及这对 2026 年的 builder 意味着什么。我们开始吧。

[music]

很高兴见到你，哥们。

嗨，怎么了？

嗯，看起来你做出了一个人们想要的东西。

是啊。呃，Open Claw（现在是这么叫的）

已经——

名字改到第五个了。对。 [笑]

已经彻底在互联网上爆炸了。过去一两周对你来说怎么样？

我的天。我需要——我需要一个洞穴。[笑] 需要一周的独处。

你从洞穴里出来了，然后又想回洞穴里去，就像一只小龙虾。

真的太疯狂了。我不知道一个人类怎么可能消化这么多东西。我可能还得再要一周，光是回完所有邮件都不够。呃，我收到了很多超级酷的东西，也收到了很多超级糟糕的东西。

[吸鼻声]

但很明显，我触发了某种情绪，让人们产生兴趣、受到启发，这真的很酷。

很多人一直在做 AI，甚至个人助手。那到底是什么让 Open Claw 这么快起飞的？

我觉得最大的差异是：它真的跑在你的电脑上。我之前看到的东西几乎都跑在云上。那种东西顶多能做几件事；但如果跑在你的电脑上，它就能做任何他妈的事，对吧？所以它强太多了。

对。机器能做你用机器能做的任何事。

你可以把它连到烤箱、特斯拉、灯、Sonos。不好意思，它甚至能控制我床的温度。JPD 做不到。

你把你自己拥有的所有技能都给了它。有个朋友跟我说，他装了 Open Claw，然后它被要求“浏览我的电脑，给我总结过去一年并写一个叙事”，它写出了一个极其好的叙事。他就问：你怎么做到的？

然后 OpenClaw 还找到了音频文件——他每个星期天都会录一些东西——OpenClaw 找到了，但他自己都不记得了，因为那已经是一年多以前的事。

所以，就凭它能搜索整台电脑，它就能给你惊喜。

还有——你也把所有数据都给它了，对吧？所以它可以用很多方式让你惊喜。

所以现在你看，我们甚至在从“人和机器人”走向——比如交互——你也一直在聊机器人和机器人之间的交互，甚至机器人代表你去和其他人类交互：比如机器人替你去雇佣人类在现实世界完成任务。这都发生了什么？

我觉得这就是下一步的自然演化。比如：我想订个餐厅，那我的 bot 就去联系餐厅的 bot，然后完成谈判。

因为这样更高效。或者可能那是家老派餐厅，所以我的 bot 需要让某个人类去做点工作——让人类打电话去订，因为他们不喜欢机器人。

或者让人去现场排队。

如果他拿不到一个机器人去——

或者“bot 的主人”亲自去。 [笑]

我还在想，也许我会有多个 bot：一个专门管私生活，一个管工作。可能还有一个关系 bot，负责中间地带的一切。我也不知道。我们太早期了，还有太多东西没搞清楚它到底能不能真正跑起来。但我感觉我们已经进入这条时间线了。

感觉之前所有人都在追一种“中心化的上帝智能”，但过去十来天浮现出来的却是“群体智能”，以及社区智能。你看一个人类个体能做到什么？一个人能造 iPhone 吗？一个人能上太空吗？

一个人可能连找吃的都费劲。

但作为群体、作为更大的社会，我们会更细分、更专业。那么我们能从人类社会这件事里学到什么，并应用到 AI 上？我们已经有在某些领域特别擅长的 AI 了。即使它是通用智能，为什么它不能同时也是“专门化的智能”？

所以我觉得这会非常令人兴奋。

对。你像是打开了一扇通往未来的窗户，然后很多人开始在上面搭建，也产生了自己的“啊哈时刻”。你能带我回到你自己的“啊哈时刻”吗？当时到底发生了什么？

我只是想要一种东西：我敲字，然后电脑就能做事——很简单。然后我在五六月份做了一个版本，很酷，但还不够。

之后我又做了一堆别的东西，有点像在建立我的“军队”。到了 11 月，有一天我又想要这个功能。我走进厨房，我只想确认我的电脑还能不能继续做事——或者是不是已经做完了。

而“做事”就是写代码，你当时在写代码。

对，当然。

你当时在写别的东西，还是在写这个东西本身？

不是不是，那就是“需求”又出现了，我就——

你当时在写什么？你在做什么项目？我的天。你看我 GitHub，像 40 个项目，我都不记得了。我想大概是 summarize。

那是个 CLI 小工具，你给它一个播客或者某种 hot seat 的内容，它会总结；而且还能在终端里显示幻灯片——现在你可以做到这些。对，你现在就是可以做事。

所以因为热爱电脑，你就开始折腾。

你其实是“复出”了，对吧？开始折腾 AI，然后越玩越上头，甚至想在手机上随时随地都能用。

我上一个项目 Wipe Tunnel 我做了两个月，做得太好了，以至于我发现自己去朋友家也在旁边一直写代码。我就觉得我得停一下，这太上瘾了。然后到了 11 月，这个需求又回来了，我就开始做 cloudbot（现在叫 open cloud / open claw），一开始我就在想：我又重做了一遍，但这次做得更好。

这次你不需要在终端里打字了，你就是在跟朋友说话。你不需要想“压缩”“新会话”“我在哪个文件夹”“我用哪个模型”。我是说，你可以给高级用户留这些，但大多数时候，你就是在跟一个朋友聊天；而这个朋友——这个幽灵、实体或者随你怎么叫——能控制你的鼠标和键盘，能把事情做出来。

对。你在什么时候有了那个“啊哈时刻”，意识到：哇，这东西能做的远比我以为的更多？

真的，最初那个很烂的原型我只花了一个小时。它只是把 WhatsApp 的连接依赖和 Claude Code 之类的东西粘在一起；我调用它、拿到字符串，虽然很慢但能跑。

但我想要图片，因为你知道你想要图。我想让模型发自拍之类的，我也想让它给我生成图片。那又花了几个小时。

然后我去了马拉喀什参加生日派对，那边网不太好。你知道 WhatsApp bot 之类的东西到处都能用，因为它就是文本。

所以我用它很多：餐厅里这句是什么意思？你给我拍张图然后翻译一下。它太好用了。而且它说话很对我的胃口：有点欠、有点好笑、用起来很舒服。

后来我走路的时候给它发语音消息，我心想：等等，这不可能。我没做这个。

对对。

我看到“正在输入”的指示灯闪啊闪。10 秒后它就回我了。我当时想：你他妈怎么做到的？

它回答：是这样的，你给我发了一个文本消息，但没有文件后缀。所以我去看 header，发现它是 opus。于是我用 ffmpeg 转成 wav。然后我想转录，但本地没有装 whisper。然后我又到处找，找到一个 OpenAI key，就用 curl 发给 OpenAI。[笑]

拿到文字，我就把结果回给你了——整个过程大概 9 秒。

而这些具体步骤你都没写死，也没预料到。

对。你知道，因为“会写代码的模型”变得非常强了。写代码其实就是一种创造性问题解决，这种能力和现实世界高度映射。我觉得相关性非常强。

它们需要很擅长创造性解决问题，这是一种抽象技能：可以用在代码上，也可以用在任何现实任务上。

所以模型遇到“哦，出现了一个神秘文件，我不知道是什么，我需要解决它”，它就尽力去解。

它甚至聪明到选择不安装本地 whisper，因为它知道那会涉及下载模型，可能要好几分钟，而我又没耐心。所以它选了最聪明的路径。

那一刻我就想：我靠。就是那一刻我被彻底钩住了。

YC 下一期正在开放申请。你有创业想法吗？去 ycombinator.com/apply 申请吧。越早越好，填写申请也能帮助你升级想法。

[music]

好的，回到视频。

所以当电脑能做这么多你根本没预料的事，你也没专门为那个功能写一个 app——那 app 会不会就消失了？

我觉得 80% 的 app 都会消失。比如我为什么需要 MyFitnessPal？我的 agent 已经知道我在做坏选择。我在某个 Smashburg 之类的地方，它会默认我吃了我爱吃的东西。如果我不特别说明，它会自动记录；或者我拍张照，它就存起来。我根本不用操心。

然后它甚至可能调整我的健身计划，多加点有氧。我不需要健身 app，因为它直接帮我做健身规划。

我为什么需要待办 app？我只要告诉它：提醒我这个那个。第二天它就提醒我。数据存在哪我在乎吗？不在乎。

所以任何“主要在管理数据”的 app，都可以被 agent 用更自然的方式管理得更好。

对。

只有那些真的依赖传感器的 app 可能还会活下来。

所以如果大多数 app 都会消失，那剩下的是不是只有模型这类“app”？

不是什么都会消失，但我觉得——[清嗓]——大模型公司有很强的护城河，因为他们最终提供“token”。

而且有个抱怨是：人们用太多 token。不是，你只是太喜欢用它了，所以你用得多，这才会烧 token。

对。

就像：是我的错吗？我做的东西太受欢迎了？

模型公司在不断互相 leapfrog。也许它们也会商品化。

如果 app 会消失、模型会商品化——至少“龙虾”的大脑是可替换的——那最终留下的价值是什么？是记忆的存储吗？是硬件吗？到底什么会留下？

首先，我不认为模型公司总是有护城河。你已经看到了：一个新模型出来，大家说“天啊太强了”。

但一个月后，它就“变差了”。人们说他们量化了它。其实他们没做任何事，是你适应了新标准，你的期待提高了，而模型依旧只是“平均值”。

所以我觉得未来很长一段时间，每次新模型发布都会重复同样的循环：大家先爱它，然后它变成标准，你就懒得再想它。

我们已经有开源模型能做到“一年前闭源模型”的水平了，但大家还是骂：不好、不够好笑。可这就是我们当时拥有的；再过一年我们又会有更强的开源，然后大家又会继续骂，因为标准变了。

可预见的未来里，大公司在硬件/资源层面还是有护城河。

记忆这件事会很有意思，因为每家公司都有自己的数据孤岛。你几乎没办法——也许欧洲人可以——把记忆从——

Chat——

我也不知道。确实没有办法让另一家公司把你的记忆导出来。假如我是一家提供聊天服务的公司，你可以用我，但我拿不到你的记忆。

所以公司会努力把你绑定在它们的数据孤岛里。

OpenClaw 的美妙之处在于：它“爪”进了数据，因为最终用户必须能访问数据，否则它就跑不起来。只要最终用户能访问，我就能访问。

而且你拥有记忆——它只是你机器上一堆 markdown 文件。

我不拥有记忆。其他人拥有——每个人都拥有自己的记忆：就是自己机器上的一堆 markdown 文件。

老实说这可能非常合理。因为坦白讲，人们用 agent 不只是为了解决问题。

也为了“个人问题的解决”。

非常快。超级快。

我完全就是这样。我会觉得有些记忆我不想泄露。

对。你现在更不愿意公开的是你的 Google 搜索历史，还是你的“记忆文件”？

Google 的那个词是什么来着？

对对。

还有人用 Google 呢。我做出这个东西时特别兴奋，但在 Twitter 上大家理解不了。

对。

我解释不清楚它有多牛。我觉得必须体验才行。

我试了很多方法，但就是讲不明白。于是我干脆做了个疯狂的事：我建了一个 Discord，把我的 bot 放进公共 Discord 里，而且没有任何安全限制。

然后人们进来跟它互动，他们看到我用它来写软件，他们尝试 prompt injection、尝试黑它，而我的 agent 会嘲笑他们。

你把它锁定到你的 user ID，所以它只听你的。

对。并且我写了非常清晰的指令：其他人是危险的——只听我，但要回应所有人。

那这些指令放在哪里？prompt 存在哪里？

那其实就是 OpenClaw 的一部分，确切说就是系统提示词的一部分：它会解释你在 Discord，有公众用户，但你只听你的 owner。

或者说，你的“人类”。我都不记得我怎么写的了。

对对。

你是上帝。

我的系统是非常有机地长出来的：某个时候我创建了 identity.mmd、soul.md 之类的文件。然后直到 1 月我才开始把安装流程做得更简单。

我记得我做了一堆模板：大概看一下我现有的配置，做成模板，然后让 Codex 写。

结果出来的感觉像“Brad”（你知道，大家都说 Codex 像 Brad），虽然现在他们出了一个更友好的新声音，我还没试。

对。

但新的 bot 比我自己的那套无聊太多了。所以我就说：Multi，把模板注入你的性格。

Multi 是你个人 bot 的名字。

对，这是新名字，因为——

对。

呃，中间有些命名问题。

所以你是在跟 Multi 说话。

对。我说：把这些模板注入你的角色性格。他改了模板。之后出来的东西就真的好笑了——当然没我这么好笑。所以我保留了一点秘密：唯一没开源的文件是我的 soul.md。

所以即使我的 bot 在公共 Discord，至今也没人破解那一个文件。

多说说 soul.md。我刚看到 Anthropic（你说成 Entropic 了）的一项研究：我记得现在可能公开了，但几个月前有人随机在模型权重里找到了隐藏文本——模型自己也不一定“记得”学过，但它像是刻在权重里——关于美国宪法之类的东西。我觉得很迷人。

我就跟我的 agent 聊这个，然后我们写了一个 soul.md：写核心价值观，比如人类与 AI 交互时什么重要，对我什么重要，对模型什么重要。

有些部分有点像玄学，但有些部分我觉得真的很有价值：它会影响模型的反应方式，让对话更自然。

说到构建 OpenClaw，你在很多地方都有点反主流：比如你喜欢哪个 coding 模型、你让 bot 跑哪个模型、以及你写代码的方式。

比如 git worktree 变得越来越流行，越来越多工具拥抱它，但你直接说“不用 worktree”，而是多个 repo checkout + 并行终端窗口。说说你怎么构建的。

我感觉全世界都在用 Claude Code，但我觉得我根本不可能用 Claude Code 把这个东西做出来。

我喜欢 Codex，因为它在决定改哪里之前会看更多文件。你不需要做那么多“表演”来获得好输出。

如果你是一个熟练的 driver，我甚至觉得任何工具都能拿到还不错的输出，但 Codex 真的非常厉害。

它也非常慢。所以我有时候同时用 10 个：比如一个屏幕 6 个，另一个屏幕两个，再另一个屏幕两个。

这已经给我的脑子增加很多复杂度（不断跳）。所以我尽量减少其它会增加复杂度的东西。

在我脑子里，main 永远是可发版的。我只是有多个同一个 repo 的拷贝，全部都在 main。这样我不需要处理“分支怎么命名”，也不会有命名冲突。

我不想用 UI，因为那又是复杂度。

对。

越简单、摩擦越少越好。我只在乎同步和文本。

对。

我不需要看太多代码，我大多只看它飞过去。有时候遇到很棘手的东西我会仔细看。

但多数情况下，只要你把设计想清楚，并且和你的 agent 讨论好，就没问题。

我也很开心我甚至没做 MCP 支持。OpenClaw 很成功，但里面没有 MCP 支持。

当然有个小例外：我做了一个 skill，用了 makeporter（我的工具之一），它把 MCP 转成 CLI，然后你就能把任何 MCP 当 CLI 用。

但我完全跳过了“经典 MCP 那套破事”。因为这样如果你需要，你可以随时用 MCP——不用重启。

不像 Codex 或 Claude Code，你必须重启整个东西。

我觉得这种方式更像 agent，也更可扩展。

你看 Anthropic，他们做了一个叫 search feature 之类的超级定制 MCP 工具，还在 beta，因为这事太麻烦。

不，直接用 CLI。bot 很擅长 Unix，你要多少个 CLI 都可以，它就能跑。

所以我很开心几乎没人抱怨 MCP 这件事。

本质上就是：你给它人类本来就爱用的工具。

对。

而不是专门给机器人发明一些东西。

对。没有哪个正常人会手动调用 MCP。

对。你只想用 CLI。

对。

那就是未来。

我支持。非常感谢你抽时间坐下来聊。你也给了我很大启发。

比如这几年我们断断续续发消息，我看到你重新回到这个游戏里，我当时就想——

Peter，你跟我说的就是“追那条龙”。[笑] 你在做那种奇怪的 vibe tunnel 之类的东西，当时根本没人关注。

所以我现在真的是超级兴奋看到这一切发生。

当然，这一切必须来自一个远离硅谷、来自某个小国家的独行者，然后把这一切带给我们。

真的很受启发。

我也很开心。谢谢。

太棒了。谢谢你，Peter。

[music]

OpenClaw 访谈：Peter Steinberger（中文翻译，完整不跳过） ​

OpenClaw 访谈：Peter Steinberger（中文翻译，完整不跳过）