深度解析前沿趋势:从代码生成、大模型操作系统到“氛围编程”
背景标签: 前特斯拉 AI 视觉总监 / OpenAI 创始成员及前研究员
核心贡献: 推动了深度学习、计算机视觉以及自动驾驶(Tesla Autopilot)的突破性进展。现投身于 AI 教育与创新软件范式(Software 3.0)的推广。
本次演讲:《Software in the era of AI》全面勾勒了大型语言模型(LLM)作为新一代计算平台的蓝图,并给出了开发者应如何应对的实操指南。
传统尖端技术(如互联网、GPS)总是先由军工/政府/大企业采用,再下放给消费者。而大模型截然相反:普通人先用它来“查怎么煮鸡蛋”,而政府和企业的应用反而大幅落后。
很多人狂热追求“让 AI 自动写完 10000 行代码”。Karpathy 警告:不要这么做!由于人类依然是代码审核的瓶颈,一次性塞来海量代码极易引发灾难。正确做法是小步快跑,用 GUI 将 AI“牵在狗绳上” (Keep on a leash)。
用自然语言写应用(Vibe coding)时,生成核心代码非常简单(几小时搞定),真正耗时一周的噩梦反而是:搞定 DevOps、域名部署,以及按照人类编写的糟糕文档去点击配置第三方登录 API。
大模型有百科全书般的超强记忆力,却患有严重的“顺行性遗忘症”。它不像人类新员工能日积月累积累公司知识,它每天醒来都会清空上下文窗口,这决定了我们必须对它的“工作记忆”进行极其精细的编程。
“我们现在正在用英语对计算机进行编程。这不仅仅是新范式,也是人类原生语言的奇迹。”
“大模型是人类的随机模拟器,它们就像游荡在互联网上的‘数字人类幽灵’(People spirits)。”
“现在还不是‘Agent之年’,这将是‘Agent的十年’。我们要打造的是‘钢铁侠的战甲’,而不是完全脱离人类的机器人。”
“当最顶尖的 LLM 宕机时,就像电网电压不稳,整个地球都在经历一次‘智力断电’(Intelligence brownout)。”
💡 悬停(或点击)卡片查看核心要点细节
Software 1.0 ➜ 3.0
Utility / Fab / OS
超能力与认知缺陷的结合
Partial Autonomy Apps
代码的彻底民主化
Building for Agents
llm.txt 和 Markdown 格式专门为大模型提供文档(Vercel, Stripe 已在推行)。curl 命令,迎接 MCP (Model Context Protocol) 时代。传统技术(如早期计算机研究弹道学、密码学、互联网、GPS)都是政府、军工或大企业率先垄断使用,由于其昂贵和复杂,只有数年后才会“向下扩散”给普通消费者。
但在大语言模型(LLM)上,发生了极具反常识的逆向扩散:LLM 作为纯软件,瞬间被部署到了全球数十亿人的个人设备上。普通大众用 ChatGPT 来查菜谱“煮鸡蛋”,而政府和大企业在采用和适应这项 AI 技术方面,却大幅落后于普通用户。
很多人对“全自动 Agent”抱有不切实际的幻想。Karpathy 强调:作为开发者,你绝对不想收到一个由 AI 瞬间生成的 10,000 行代码的合并请求(Diff)。反常识的是:AI 越快,人类反而越容易成为瓶颈。因为人类依然需要极其审慎地确保这 1万行代码没有引入隐藏 BUG 或安全漏洞。
实操建议:
Karpathy 回忆他在 2013 年乘坐 Waymo 自动驾驶汽车,在帕罗奥图体验了 30 分钟无干预的“完美驾驶”。他当时觉得“自动驾驶马上就要实现了”。然而 12 年后的今天,这依然是一个未完全解开、需要人类远程协助的难题。
这也印证了软件开发的残酷现实:解决 90% 的问题容易,搞定最后 10% 的边缘情况极难。因此,他警告说,那些声称“2025年是Agent之年”的说法过于乐观。未来的 AI 产品必须具备“自治度滑块 (Autonomy Slider)”。我们要打造的是钢铁侠战甲 (Iron Man Suit)——既能够增强人类能力由人类亲自驾驶,也能在需要时切换为自主模式完成特定任务。
由于“氛围编程”中人类最痛苦的是配置繁杂的环境和API,我们需要向 AI 妥协,主动改造互联网环境,使其“机器友好”: