Appearance
OpenClaw 访谈:Peter Steinberger(中文翻译,完整不跳过)
来源:https://www.youtube.com/watch?v=4uzGDAoNOZc
说明:以下为完整翻译(不跳过、不省略),仅做了分段与标点以便阅读;保留了口头语、笑声与舞台提示。
今天我将与 Peter Steinberger 坐下来聊聊。他是 OpenClaw 的创造者——一个开源的个人 AI agent,几乎“接管了互联网”。这个 GitHub 仓库几乎一夜之间就爆到了 16 万+ star。
[music]
社区已经基于它做出了无数项目,比如 Maltbook——机器人之间会互相对话。现在,机器人甚至开始“雇佣人类”去现实世界完成任务。在这次对话中,我们讨论了他的“啊哈时刻”、他一些反主流的开发理念,以及这对 2026 年的 builder 意味着什么。我们开始吧。
[music]
很高兴见到你,哥们。
嗨,怎么了?
嗯,看起来你做出了一个人们想要的东西。
是啊。呃,Open Claw(现在是这么叫的)
已经——
名字改到第五个了。对。 [笑]
已经彻底在互联网上爆炸了。过去一两周对你来说怎么样?
我的天。我需要——我需要一个洞穴。[笑] 需要一周的独处。
你从洞穴里出来了,然后又想回洞穴里去,就像一只小龙虾。
真的太疯狂了。我不知道一个人类怎么可能消化这么多东西。我可能还得再要一周,光是回完所有邮件都不够。呃,我收到了很多超级酷的东西,也收到了很多超级糟糕的东西。
[吸鼻声]
但很明显,我触发了某种情绪,让人们产生兴趣、受到启发,这真的很酷。
很多人一直在做 AI,甚至个人助手。那到底是什么让 Open Claw 这么快起飞的?
我觉得最大的差异是:它真的跑在你的电脑上。我之前看到的东西几乎都跑在云上。那种东西顶多能做几件事;但如果跑在你的电脑上,它就能做任何他妈的事,对吧?所以它强太多了。
对。机器能做你用机器能做的任何事。
你可以把它连到烤箱、特斯拉、灯、Sonos。不好意思,它甚至能控制我床的温度。JPD 做不到。
你把你自己拥有的所有技能都给了它。有个朋友跟我说,他装了 Open Claw,然后它被要求“浏览我的电脑,给我总结过去一年并写一个叙事”,它写出了一个极其好的叙事。他就问:你怎么做到的?
然后 OpenClaw 还找到了音频文件——他每个星期天都会录一些东西——OpenClaw 找到了,但他自己都不记得了,因为那已经是一年多以前的事。
所以,就凭它能搜索整台电脑,它就能给你惊喜。
还有——你也把所有数据都给它了,对吧?所以它可以用很多方式让你惊喜。
所以现在你看,我们甚至在从“人和机器人”走向——比如交互——你也一直在聊机器人和机器人之间的交互,甚至机器人代表你去和其他人类交互:比如机器人替你去雇佣人类在现实世界完成任务。这都发生了什么?
我觉得这就是下一步的自然演化。比如:我想订个餐厅,那我的 bot 就去联系餐厅的 bot,然后完成谈判。
因为这样更高效。或者可能那是家老派餐厅,所以我的 bot 需要让某个人类去做点工作——让人类打电话去订,因为他们不喜欢机器人。
或者让人去现场排队。
如果他拿不到一个机器人去——
或者“bot 的主人”亲自去。 [笑]
我还在想,也许我会有多个 bot:一个专门管私生活,一个管工作。可能还有一个关系 bot,负责中间地带的一切。我也不知道。我们太早期了,还有太多东西没搞清楚它到底能不能真正跑起来。但我感觉我们已经进入这条时间线了。
感觉之前所有人都在追一种“中心化的上帝智能”,但过去十来天浮现出来的却是“群体智能”,以及社区智能。你看一个人类个体能做到什么?一个人能造 iPhone 吗?一个人能上太空吗?
一个人可能连找吃的都费劲。
但作为群体、作为更大的社会,我们会更细分、更专业。那么我们能从人类社会这件事里学到什么,并应用到 AI 上?我们已经有在某些领域特别擅长的 AI 了。即使它是通用智能,为什么它不能同时也是“专门化的智能”?
所以我觉得这会非常令人兴奋。
对。你像是打开了一扇通往未来的窗户,然后很多人开始在上面搭建,也产生了自己的“啊哈时刻”。你能带我回到你自己的“啊哈时刻”吗?当时到底发生了什么?
我只是想要一种东西:我敲字,然后电脑就能做事——很简单。然后我在五六月份做了一个版本,很酷,但还不够。
之后我又做了一堆别的东西,有点像在建立我的“军队”。到了 11 月,有一天我又想要这个功能。我走进厨房,我只想确认我的电脑还能不能继续做事——或者是不是已经做完了。
而“做事”就是写代码,你当时在写代码。
对,当然。
你当时在写别的东西,还是在写这个东西本身?
不是不是,那就是“需求”又出现了,我就——
你当时在写什么?你在做什么项目?我的天。你看我 GitHub,像 40 个项目,我都不记得了。我想大概是 summarize。
那是个 CLI 小工具,你给它一个播客或者某种 hot seat 的内容,它会总结;而且还能在终端里显示幻灯片——现在你可以做到这些。对,你现在就是可以做事。
所以因为热爱电脑,你就开始折腾。
你其实是“复出”了,对吧?开始折腾 AI,然后越玩越上头,甚至想在手机上随时随地都能用。
我上一个项目 Wipe Tunnel 我做了两个月,做得太好了,以至于我发现自己去朋友家也在旁边一直写代码。我就觉得我得停一下,这太上瘾了。然后到了 11 月,这个需求又回来了,我就开始做 cloudbot(现在叫 open cloud / open claw),一开始我就在想:我又重做了一遍,但这次做得更好。
这次你不需要在终端里打字了,你就是在跟朋友说话。你不需要想“压缩”“新会话”“我在哪个文件夹”“我用哪个模型”。我是说,你可以给高级用户留这些,但大多数时候,你就是在跟一个朋友聊天;而这个朋友——这个幽灵、实体或者随你怎么叫——能控制你的鼠标和键盘,能把事情做出来。
对。你在什么时候有了那个“啊哈时刻”,意识到:哇,这东西能做的远比我以为的更多?
真的,最初那个很烂的原型我只花了一个小时。它只是把 WhatsApp 的连接依赖和 Claude Code 之类的东西粘在一起;我调用它、拿到字符串,虽然很慢但能跑。
但我想要图片,因为你知道你想要图。我想让模型发自拍之类的,我也想让它给我生成图片。那又花了几个小时。
然后我去了马拉喀什参加生日派对,那边网不太好。你知道 WhatsApp bot 之类的东西到处都能用,因为它就是文本。
所以我用它很多:餐厅里这句是什么意思?你给我拍张图然后翻译一下。它太好用了。而且它说话很对我的胃口:有点欠、有点好笑、用起来很舒服。
后来我走路的时候给它发语音消息,我心想:等等,这不可能。我没做这个。
对对。
我看到“正在输入”的指示灯闪啊闪。10 秒后它就回我了。我当时想:你他妈怎么做到的?
它回答:是这样的,你给我发了一个文本消息,但没有文件后缀。所以我去看 header,发现它是 opus。于是我用 ffmpeg 转成 wav。然后我想转录,但本地没有装 whisper。然后我又到处找,找到一个 OpenAI key,就用 curl 发给 OpenAI。[笑]
拿到文字,我就把结果回给你了——整个过程大概 9 秒。
而这些具体步骤你都没写死,也没预料到。
对。你知道,因为“会写代码的模型”变得非常强了。写代码其实就是一种创造性问题解决,这种能力和现实世界高度映射。我觉得相关性非常强。
它们需要很擅长创造性解决问题,这是一种抽象技能:可以用在代码上,也可以用在任何现实任务上。
所以模型遇到“哦,出现了一个神秘文件,我不知道是什么,我需要解决它”,它就尽力去解。
它甚至聪明到选择不安装本地 whisper,因为它知道那会涉及下载模型,可能要好几分钟,而我又没耐心。所以它选了最聪明的路径。
那一刻我就想:我靠。就是那一刻我被彻底钩住了。
YC 下一期正在开放申请。你有创业想法吗?去 ycombinator.com/apply 申请吧。越早越好,填写申请也能帮助你升级想法。
[music]
好的,回到视频。
所以当电脑能做这么多你根本没预料的事,你也没专门为那个功能写一个 app——那 app 会不会就消失了?
我觉得 80% 的 app 都会消失。比如我为什么需要 MyFitnessPal?我的 agent 已经知道我在做坏选择。我在某个 Smashburg 之类的地方,它会默认我吃了我爱吃的东西。如果我不特别说明,它会自动记录;或者我拍张照,它就存起来。我根本不用操心。
然后它甚至可能调整我的健身计划,多加点有氧。我不需要健身 app,因为它直接帮我做健身规划。
我为什么需要待办 app?我只要告诉它:提醒我这个那个。第二天它就提醒我。数据存在哪我在乎吗?不在乎。
所以任何“主要在管理数据”的 app,都可以被 agent 用更自然的方式管理得更好。
对。
只有那些真的依赖传感器的 app 可能还会活下来。
所以如果大多数 app 都会消失,那剩下的是不是只有模型这类“app”?
不是什么都会消失,但我觉得——[清嗓]——大模型公司有很强的护城河,因为他们最终提供“token”。
而且有个抱怨是:人们用太多 token。不是,你只是太喜欢用它了,所以你用得多,这才会烧 token。
对。
就像:是我的错吗?我做的东西太受欢迎了?
模型公司在不断互相 leapfrog。也许它们也会商品化。
如果 app 会消失、模型会商品化——至少“龙虾”的大脑是可替换的——那最终留下的价值是什么?是记忆的存储吗?是硬件吗?到底什么会留下?
首先,我不认为模型公司总是有护城河。你已经看到了:一个新模型出来,大家说“天啊太强了”。
但一个月后,它就“变差了”。人们说他们量化了它。其实他们没做任何事,是你适应了新标准,你的期待提高了,而模型依旧只是“平均值”。
所以我觉得未来很长一段时间,每次新模型发布都会重复同样的循环:大家先爱它,然后它变成标准,你就懒得再想它。
我们已经有开源模型能做到“一年前闭源模型”的水平了,但大家还是骂:不好、不够好笑。可这就是我们当时拥有的;再过一年我们又会有更强的开源,然后大家又会继续骂,因为标准变了。
可预见的未来里,大公司在硬件/资源层面还是有护城河。
记忆这件事会很有意思,因为每家公司都有自己的数据孤岛。你几乎没办法——也许欧洲人可以——把记忆从——
Chat——
我也不知道。确实没有办法让另一家公司把你的记忆导出来。假如我是一家提供聊天服务的公司,你可以用我,但我拿不到你的记忆。
所以公司会努力把你绑定在它们的数据孤岛里。
OpenClaw 的美妙之处在于:它“爪”进了数据,因为最终用户必须能访问数据,否则它就跑不起来。只要最终用户能访问,我就能访问。
而且你拥有记忆——它只是你机器上一堆 markdown 文件。
我不拥有记忆。其他人拥有——每个人都拥有自己的记忆:就是自己机器上的一堆 markdown 文件。
老实说这可能非常合理。因为坦白讲,人们用 agent 不只是为了解决问题。
也为了“个人问题的解决”。
非常快。超级快。
我完全就是这样。我会觉得有些记忆我不想泄露。
对。你现在更不愿意公开的是你的 Google 搜索历史,还是你的“记忆文件”?
Google 的那个词是什么来着?
对对。
还有人用 Google 呢。我做出这个东西时特别兴奋,但在 Twitter 上大家理解不了。
对。
我解释不清楚它有多牛。我觉得必须体验才行。
我试了很多方法,但就是讲不明白。于是我干脆做了个疯狂的事:我建了一个 Discord,把我的 bot 放进公共 Discord 里,而且没有任何安全限制。
然后人们进来跟它互动,他们看到我用它来写软件,他们尝试 prompt injection、尝试黑它,而我的 agent 会嘲笑他们。
你把它锁定到你的 user ID,所以它只听你的。
对。并且我写了非常清晰的指令:其他人是危险的——只听我,但要回应所有人。
那这些指令放在哪里?prompt 存在哪里?
那其实就是 OpenClaw 的一部分,确切说就是系统提示词的一部分:它会解释你在 Discord,有公众用户,但你只听你的 owner。
或者说,你的“人类”。我都不记得我怎么写的了。
对对。
你是上帝。
我的系统是非常有机地长出来的:某个时候我创建了 identity.mmd、soul.md 之类的文件。然后直到 1 月我才开始把安装流程做得更简单。
我记得我做了一堆模板:大概看一下我现有的配置,做成模板,然后让 Codex 写。
结果出来的感觉像“Brad”(你知道,大家都说 Codex 像 Brad),虽然现在他们出了一个更友好的新声音,我还没试。
对。
但新的 bot 比我自己的那套无聊太多了。所以我就说:Multi,把模板注入你的性格。
Multi 是你个人 bot 的名字。
对,这是新名字,因为——
对。
呃,中间有些命名问题。
所以你是在跟 Multi 说话。
对。我说:把这些模板注入你的角色性格。他改了模板。之后出来的东西就真的好笑了——当然没我这么好笑。所以我保留了一点秘密:唯一没开源的文件是我的 soul.md。
所以即使我的 bot 在公共 Discord,至今也没人破解那一个文件。
多说说 soul.md。我刚看到 Anthropic(你说成 Entropic 了)的一项研究:我记得现在可能公开了,但几个月前有人随机在模型权重里找到了隐藏文本——模型自己也不一定“记得”学过,但它像是刻在权重里——关于美国宪法之类的东西。我觉得很迷人。
我就跟我的 agent 聊这个,然后我们写了一个 soul.md:写核心价值观,比如人类与 AI 交互时什么重要,对我什么重要,对模型什么重要。
有些部分有点像玄学,但有些部分我觉得真的很有价值:它会影响模型的反应方式,让对话更自然。
说到构建 OpenClaw,你在很多地方都有点反主流:比如你喜欢哪个 coding 模型、你让 bot 跑哪个模型、以及你写代码的方式。
比如 git worktree 变得越来越流行,越来越多工具拥抱它,但你直接说“不用 worktree”,而是多个 repo checkout + 并行终端窗口。说说你怎么构建的。
我感觉全世界都在用 Claude Code,但我觉得我根本不可能用 Claude Code 把这个东西做出来。
我喜欢 Codex,因为它在决定改哪里之前会看更多文件。你不需要做那么多“表演”来获得好输出。
如果你是一个熟练的 driver,我甚至觉得任何工具都能拿到还不错的输出,但 Codex 真的非常厉害。
它也非常慢。所以我有时候同时用 10 个:比如一个屏幕 6 个,另一个屏幕两个,再另一个屏幕两个。
这已经给我的脑子增加很多复杂度(不断跳)。所以我尽量减少其它会增加复杂度的东西。
在我脑子里,main 永远是可发版的。我只是有多个同一个 repo 的拷贝,全部都在 main。这样我不需要处理“分支怎么命名”,也不会有命名冲突。
我不想用 UI,因为那又是复杂度。
对。
越简单、摩擦越少越好。我只在乎同步和文本。
对。
我不需要看太多代码,我大多只看它飞过去。有时候遇到很棘手的东西我会仔细看。
但多数情况下,只要你把设计想清楚,并且和你的 agent 讨论好,就没问题。
我也很开心我甚至没做 MCP 支持。OpenClaw 很成功,但里面没有 MCP 支持。
当然有个小例外:我做了一个 skill,用了 makeporter(我的工具之一),它把 MCP 转成 CLI,然后你就能把任何 MCP 当 CLI 用。
但我完全跳过了“经典 MCP 那套破事”。因为这样如果你需要,你可以随时用 MCP——不用重启。
不像 Codex 或 Claude Code,你必须重启整个东西。
我觉得这种方式更像 agent,也更可扩展。
你看 Anthropic,他们做了一个叫 search feature 之类的超级定制 MCP 工具,还在 beta,因为这事太麻烦。
不,直接用 CLI。bot 很擅长 Unix,你要多少个 CLI 都可以,它就能跑。
所以我很开心几乎没人抱怨 MCP 这件事。
本质上就是:你给它人类本来就爱用的工具。
对。
而不是专门给机器人发明一些东西。
对。没有哪个正常人会手动调用 MCP。
对。你只想用 CLI。
对。
那就是未来。
我支持。非常感谢你抽时间坐下来聊。你也给了我很大启发。
比如这几年我们断断续续发消息,我看到你重新回到这个游戏里,我当时就想——
Peter,你跟我说的就是“追那条龙”。[笑] 你在做那种奇怪的 vibe tunnel 之类的东西,当时根本没人关注。
所以我现在真的是超级兴奋看到这一切发生。
当然,这一切必须来自一个远离硅谷、来自某个小国家的独行者,然后把这一切带给我们。
真的很受启发。
我也很开心。谢谢。
太棒了。谢谢你,Peter。
[music]