视频摘要:与智能代理(Agents)共同进化

本次演讲由亚马逊AGI SF实验室的认知科学家Danielle主讲,探讨了如何构建可靠且与人类智能互补的通用智能代理。

核心论点:重新定义AGI

传统观点认为通用人工智能(AGI)是制造出与人一样聪明甚至更聪明的机器,这是一种“类别错误”。 [0:02:51.280-0:03:05.440]

演讲者新视角:真正的目标应该是构建能增强人类(Augmenting Human)、让我们变得更聪明的AI,而不是替代我们。 [0:05:06.479-0:05:13.039, 0:07:19.520-0:07:28.880]

通用智能并非存在于单个机器或个体中,而是在互动中涌现的。 [0:14:55.360-0:15:11.920] 它是社会的、分布式的、不断演化的。

智能与“幻觉”

人类的感知本身就是一种“受控的幻觉”(Controlled Hallucination)。 [0:01:15.840-0:01:21.360] 我们的大脑通过预测和感官信息来构建对现实的理解。

“幻觉”对于AI是特性(Feature)而非缺陷(Bug),因为它允许AI超越现有数据,是实现灵活性的必要条件。关键在于如何控制它。 [0:02:12.959-0:02:26.319]

NovaAct:亚马逊的解决方案

NovaAct是一个研究预览版的智能代理,它结合了Amazon的Nova基础模型和一个SDK。 [0:03:33.200-0:03:37.760, 0:08:21.440-0:08:27.280]

核心功能:

  • 浏览器即工具: 由于多数网站缺乏API,NovaAct通过像人一样与UI(用户界面)交互来操作浏览器。 [0:08:00.400-0:08:17.360]
  • Act调用: 通过简单的`act`调用,将自然语言指令转化为屏幕上的具体动作(点击、输入等)。 [0:08:27.280-0:08:34.320]
  • 开发者友好: 只需三行代码即可开始使用,并支持Python集成(如Pydantic和Pandas),实现结构化数据提取和并行处理等高级功能。 [0:10:08.480-0:10:11.200, 0:09:13.839-0:09:59.760]

我们的方法不同之处在于:专注于使最小的交互单元(如点击)变得可靠,并为开发者提供对这些原子操作的精细控制。 [0:11:48.079-0:12:00.000]

智能的进化与未来

人类智能的进化史是一部与技术共同进化的历史(Technosocial Co-evolution)。 [0:05:31.120-0:05:41.120] 从语言到计算机,我们不断发明新工具,这些工具反过来又重塑了我们。

语言是终极的认知技术,它通过与我们心智模型(Models of Minds)的共同进化,实现了真正的泛化能力。 [0:15:36.959-0:16:26.480]

为了让代理真正可靠,它们最终需要拥有我们的“心智模型”。 [0:18:50.880-0:18:56.400] 这需要通过构建一个共享的环境和直观的交互界面,在人类与代理的互动中自然涌现,而不是直接构建。

我们需要衡量与优化人机互动本身,关注创造力、生产力、心流状态等人类指标,而不仅仅是模型能力。 [0:15:11.920-0:15:31.920]

🚀 行动号召:共建未来

演讲者强调,可靠的通用智能需要社区的共同努力和进化。开发者和所有对AI感兴趣的人都是这个进化过程的核心部分。 [0:03:42.239-0:03:47.280, 0:18:35.200-0:18:42.160]

鼓励大家尝试NovaAct,并参与到这个生态的建设中来。

可以从NovaAct的GitHub Repo开始探索(视频中提到了示例脚本)。 [0:10:01.040-0:10:06.320]

原文

源链接