图1-1. GitHub Copilot在我的IDE（Visual Studio Code）中的UX界面。

图1-2. 当我按下快捷键时GitHub Copilot的提示小部件弹出。

表 1-1. 代码生成工具概览。
工具	用户体验	测试性能
ChatGPT	浏览器	9/10
Google Gemini	浏览器	8/10
GitHub Copilot	IDE	6/10
Amazon Code Whisperer	IDE	7/10

图2-9. Research Studio从调查回复生成的洞察地图。

图2-10. Research Studio生成的用户画像。

表2-1. AI UI/UX工具概览。
工具	目的	测试表现
Uizard Autodesigner 2.0	UI生成	8/10
Galileo AI	UI和代码生成	10/10
QoQo.ai	UX自动化	8/10
Research Studio	UX自动化	8/10

图3-1. Codacy识别了SQL注入漏洞。

图3-2. Codacy解释了SQL注入漏洞。

图3-3. Codacy识别了跨站脚本漏洞。

图3-4. Codacy解释了跨站脚本漏洞。

图3-5. Codacy为发现的问题提供建议修复方案。

工具	用户体验	测试性能
Codacy	浏览器 + 仓库	8/10
Snyk/DeepCode	浏览器 + 仓库	6/10
CodeRabbit	仓库	7/10

AI代码审查工具概述。
Tool	UX	Test performance
Katalon	Repository	9/10
testRigor	Browser	7/10

图5-1. 在线零售交易数据集样本。

图5-2. 我的文件上传和给Julius的第一个提示。

图5-3. Julius对第一个提示的部分回复，显示按数量排列的最畅销产品。

图5-4. Julius对第一个提示的部分回复，显示按收入排列的最畅销产品。

图5-5. Julius对第一个提示的部分观察结果。

表 5-1.AI 数据分析工具概述 {#calibre_link-53}
工具	用户体验	测试性能
Julius	聊天机器人	7/10
Akkio	聊天机器人	5/10
ChatGPT	聊天机器人	6/10

图6-1。Swimm用于创建文档的小部件。

图6-2。Swimm后端文档输出样本。

图 6-4. 指示ChatGPT为我的代码生成文档

ChatGPT生成了非常全面的文档，如图6-5的目录所示。

图 6-5. ChatGPT生成文档的目录

这是一个非常好的输出，文档非常完整，包含了所有预期主要组件的章节，从高层次的上下文（如代码库结构）到每个特定组件的详细深入分析，例如API，如图6-6所示。

图 6-6. ChatGPT对API模块的文档说明

你可以要求ChatGPT直接将文档输出到Markdown文件中。我将ChatGPT生成的最终文档（以及本章中的其他工具）提交到了本书的Github代码库。

如预期，ChatGPT在这个有限范围的测试中表现非常好。它一次最多可以处理20个文件，文件大小限制根据文件类型而有所不同。虽然这对我的身份验证应用程序等小项目来说完全没问题，但对大多数生产级应用程序来说是不够的。除了这些限制之外，ChatGPT还提供了不便的UI，与连接到代码库的工具相比。需要手动上传文件并向ChatGPT提供关于它们结构和关系的上下文信息，这使得它使用起来更具挑战性，特别是在大型项目中。

因此，我为这个用例给ChatGPT评分7/10。文档的质量非常好，但有限制和不便UI的缺点。软件工程师需要一些创造性来记录应用程序的集群（按功能或技术栈的部分，或模块），在每份文档20个文件的限制内。

Cursor

Cursor是AI编码工具领域相对较新的参与者。它于2023年推出，在具有AI代码辅助功能的IDE特定用例中获得了巨大的市场份额，这一领域一直由Github Copilot领导。截至2024年8月，Cursor拥有40,000名客户。

Cursor的产品是一个AI原生IDE，最初作为流行的Visual Studio Code的分支开始。它允许软件工程师选择哪个LLM模型为工具提供动力；我使用了Anthropic的Claude Sonnet 3.5。作为真正的IDE，Cursor可以查看我代码库中的所有代码文件，无论它们的数量或大小如何。你通过聊天功能输入提示，如图6-7所示。

图 6-7. 向Cursor发送生成文档的提示

Cursor生成的文档很好，包含预期主要组件的章节，如图6-8的目录所示。

图 6-8. ChatGPT生成文档的目录

尽管大纲非常全面且内容相关性很高，但Cursor在生成Markdown文档时有一个重大缺陷。由于某种原因（可能是bug），生成的内容只是部分格式化为Markdown文件。它将一些章节输出为原始文本，如图6-9中的片段。这使得阅读变得困难得多。

图 6-9. Cursor生成的markdown文档中的格式问题

尽管存在这些格式问题，生成的文档是详尽的，涵盖了正确的主题，内容具有正确的技术深度级别。绝对符合我在团队中认为可接受的文档标准。因此，我给Cursor评分8/10。

Scribe

Scribe 与本章中评测的其他工具截然不同。这个工具最适合以可视化方式创建用户指南、标准操作程序(SOPs)或错误报告。虽然我使用 Swimm、ChatGPT 和 Cursor 主要专注于创建关于某个产品或功能技术实现的书面文档，但我使用 Scribe 来制作关于产品功能的指南。

虽然 Scribe 于 2019 年作为一个基础的屏幕捕获工具创建，但我在此次测试中使用的功能，称为 Scribe AI，直到 2023 年才推出。它利用了原有的功能，允许用户录制浏览器会话，但不仅仅是存储录制的视频，它还根据录制中的屏幕转换创建带有注释的完整工作流程。这就是为什么它适用于 UI 相关的用例，如错误报告和产品指南。

为了开始测试，我安装了 Scribe 的 Chrome 扩展程序，并使用它录制了一个简单的会话，记录我自己注册新账户并登录该账户的过程。我的目标是让 Scribe 生成一个用户指南，我可以与外部非技术利益相关者（如产品用户）分享。

录制第一个会话的体验相当流畅；我在第一次尝试时就轻松得到了所需的录制。它被称为 Scribe，这是视频录制和生成的带注释工作流程的名称，可在此公共链接中查看。我认为这个输出很好，因为它识别了我工作流程中的屏幕转换，并捕获了每个屏幕的截图，突出显示了用户在屏幕上执行的导致转换的操作。结果与 Hotjar 或 FullStory 等用户跟踪工具一致，这些工具通常用于用户研究和错误跟踪。

Scribe 提供了一个功能，可以将上述公共链接中的原始 HTML 文档转换为 AI 生成的文档。我在这里使用了此流程，它允许用户编写一个提示，描述希望从捕获的屏幕录制中生成的所需文档片段。我的指示很简单，如图 6-7 所示。

生成的文档在此公开提供。我发现这个输出令人失望。它很泛化，感觉就像可以写给任何应用程序的内容，而不是专门针对我的应用程序。它生成了一个文档并将 Scribes（特定流程）嵌入其中，而不是基于我录制的流程生成文档，这与我的意图不符，这让我推断该工具可能更适合涉及将多个不同 Scribes 合并到更大文档中的较大文档片段（例如：产品指南）。生成文档的内容与用例不太相关。因此，我给 Scribe 评分 5/10。

工具比较

工具	UX	测试表现
Swimm	代码库扩展	6/10
ChatGPT	网站	7/10
Cursor	IDE	8/10
Scribe	Chrome扩展程序	5/10

表 6-1. AI 文档工具概览

结论

作为十多年的 CTO，我发现文档总是缺乏的，但从未到需要暂停正在进行的工作来修复它的程度。事实上，糟糕的文档是技术债务的一种形式，但不会破坏系统或降低性能。然而，它确实会降低团队的表现，这在软件开发团队中是一种不太明显但可能更有害的债务形式。

我一直发现很难推动我团队中的软件工程师首先编写文档，更难的是保持文档的组织性、可访问性和更新性。我认为像本章中评测的 AI 工具可以在简化这个过程方面发挥根本作用。通过一个简单的提示，它们可以在几秒钟内生成文档。人类至少需要一到两个小时才能生成类似的文档。这种时间投入随着复杂性而加剧：系统越大，正确记录文档并保持文档更新就越具有挑战性和耗时。在一个几十人的团队中，这项工作每年可能轻易达到数千小时的集体工作量。

虽然 AI 工具可以即时创建文档，但它们也可能创建糟糕的文档（就像人类一样）。我建议团队对文档采用与设置编码准则相同的方法：为提示甚至文档创建模板，包含预定义的章节和子章节。这可以作为避免不必要冗长文档的安全措施，并通过使内容更易于查找来促进可读性。

话虽如此，由AI工具创建的文档必须始终由团队成员进行彻底审查和编辑。虽然只需几秒钟就能生成90%的交付物，但最终的修订和质量控制必须由人类执行，因为输出并不总是能实现目标。以Scribe为例，生成的文档是通用的，人类审查员会发现这个缺陷并手动改进文档。

第7章聊天机器人和虚拟助手

早期发布读者须知

通过Early Release电子书，您可以获得最早形式的书籍——作者在写作时的原始未编辑内容——这样您可以在这些书籍正式发布之前很久就利用这些技术。

这将是最终书籍的第7章。请注意GitHub存储库将稍后激活。

如果您想积极参与审查和评论这份草稿，请通过sgrey@oreilly.com联系编辑。

聊天机器人在数字化客户服务和自动化领域已经存在十多年了。最初作为简单的基于规则的程序构建，传统聊天机器人遵循预定义的逻辑树来处理重复性任务，比如回答常见问题、在客户支持中提供自动回复，或在结构化工作流程中收集用户信息。我们可以说这些聊天机器人与今天基于LLM的机器人相比并不是很强大，但它们成为了自动化大量、低复杂度交互的非常流行的方式。然而，它们的技术实现在处理非结构化对话、歧义或偏离预期模式的用户输入时遇到困难。体验通常感觉僵硬和不自然——人们清楚地理解他们在与机器对话，这些用户交互经常以令人沮丧的话语结束，比如”我不明白，请再试一次”。

现在人们已经习惯了与基于LLM的工具（如ChatGPT）聊天，基于规则的聊天机器人方法似乎已成为遥远的记忆。今天的”AI驱动”聊天机器人不再仅仅依赖预定义的脚本和规则。相反，它们利用复杂的自然语言处理(NLP)、上下文理解和生成式AI来提供动态的、类人的交互。

这些进步极大地扩展了聊天机器人的作用，包括以下任务：

理解复杂查询并用相关的、结构良好的答案回应。
在对话中保持记忆，提供连续性和上下文。
代表用户采取行动，比如预约或检索个性化数据。
随着时间学习和适应，基于真实世界的交互进行改进。
与外部API和数据库集成以获取实时信息。

这种转变意味着软件工程师现在有了广泛的工具和框架来帮助我们构建智能聊天机器人，从无代码工作流程构建器到充分利用智能体推理(agentic reasoning)和训练数据的完全可定制的AI驱动助手。无论您想构建一个简单的自动化服务台机器人还是一个能够进行复杂决策的复杂AI智能体，现在的技术比以往任何时候都更容易获得。

聊天机器人实现类型

有三种实现聊天机器人的主要选择：

无代码AI聊天机器人

这些工具承诺没有任何编程知识的用户将能够部署AI驱动的助手。它们通常具有易于使用的界面，用户可以上传数据集、定义工作流程并选择底层AI模型。虽然这些工具是为非技术受众推广的，但我将它们包含在书中，因为根据我的经验，通常需要某些技术知识来将这些工具与公司工作流程的其他部分集成，这最终成为软件工程师工作范围的一部分。

这些无代码聊天机器人是上述基于规则的聊天机器人的自然演进，迎合相同的用例：客户支持、电子商务和FAQ自动化。

拖放式聊天机器人构建器

这些工具旨在在简单性和灵活性之间搭建桥梁，以适应不同客户的需求。它们通常易于设置，允许用户通过连接具有预定义功能的框来可视化构建对话流程，同时集成AI驱动功能进行动态交互。开发人员可以自动化工作流程，并在后端为聊天机器人使用更复杂的逻辑。

这些聊天机器人构建器迎合客户服务、潜在客户生成和内部工作流程自动化等用例。

基于代码的AI框架

这些通常是SDK、API或开源存储库，允许软件工程师完全控制聊天机器人的行为，然后他们将其用作样板来实现定制的聊天机器人体验。它们通常对训练数据有更高的标准。用例包括智能体推理、与其他工具和工作流程的集成，甚至数据安全（因为这些聊天机器人可以在公司的云基础设施上自托管）。

评估过程

为了比较聊天机器人构建工具，我创建了一个与这个在线零售数据集交互的聊天机器人，由机器学习领域的O’Reilly作者Lucas Soares创建。它包含来自电子商务商店的交易数据，我使用它来测试聊天机器人检索事实数据和回答复杂用户查询的能力。

每个聊天机器人都使用一组预定义查询进行测试，评估其：

设置和部署的便利性
检索事实信息的能力
跨多次交互的上下文保持能力
处理复杂查询的能力

我测试了多个工具，但从前一节概述的每个类别中各选择了一个。

工具对比

让我们从一个无代码选项开始：Chatbase。

Chatbase

Chatbase 于2022年推出，是一个无代码AI聊天机器人构建器，允许用户通过上传文档或数据集来创建和训练聊天机器人。由于其简单的界面和与OpenAI GPT模型的集成，它获得了广泛欢迎，这使其成为那些希望在不需要技术专长的情况下自动化支持和客户交互的企业的可用解决方案。虽然该产品相对较新，但Chatbase已经在小企业、个人创业者和初创公司中得到了采用，特别是用于处理客户支持和FAQ自动化。该工具提供免费套餐选项和付费计划来扩展您的聊天机器人功能。

对于这个测试，我在Chatbase网站上创建了一个免费账户，并寻找创建聊天机器人的方法。我很快找到了添加训练数据的部分：我的电子商务产品目录电子表格。在两三分钟内，我就在与我的聊天机器人交互了。

一旦聊天机器人准备就绪，我开始提问，就像我是一个真实客户一样：

我看到你们的目录中有一些Android手机。比较一下功能和价格，告诉我最好的预算Android手机是什么？

它在第一个问题上表现良好，获取了正确的结果并以格式良好的回应显示它们。

在第二个问题中，我故意询问了一个不存在的产品：

我在找一台10美元以下的笔记本电脑。最佳选择是什么？

这是产生幻觉的常见来源，我的Chatbase机器人再次表现良好，说明没有产品符合我的查询这一事实。

对于第三个问题，我提出了更复杂的问题，不仅询问目录中的特定产品，还要求比较它们的属性并最终给出建议：

你们有手机和数码相机。我对摄影感兴趣，我应该买Sony Xperia XA2 Ultra还是Pentax K-1相机？为什么？

再次，我的Chatbase机器人表现良好，说明了每个选项的属性，并就何时购买其中一个选项给出了建议。

Chatbase还通过其连接部分使发布聊天机器人变得非常容易。通过几次点击，我就得到了一些代码，可以通过聊天气泡或iframe将我的聊天机器人嵌入到网站中。我对上传训练数据、测试机器人和发布它的简易程度印象深刻。

Chatbase在测试中表现很好，如果您有特定的训练数据并对提示做一些更改以获得所需的功能、语调等，它可能是在网站中集成聊天机器人的最简单方法之一。因此，我给它评9/10分。我没有给它10/10分的原因是最终产品的行为与底层LLM(在这个测试中是gpt-4o-mini)的默认行为非常相似。换句话说，如果用户将相同的训练数据上传到ChatGPT并提出这些问题，答案会非常相似。尽管如此，完成所有这些并通过几次点击发布机器人的简易性令人印象深刻。

Botpress

拖拽式选项Botpress成立于2017年，作为一个开源聊天机器人开发平台，当时这意味着基于规则的聊天机器人。该产品的当前版本提供了一个可视化构建器，使用户能够创建复杂的对话逻辑，并将生成的机器人与第三方API和其他应用程序集成。近年来，Botpress的采用率有所增长，特别是在寻求闭源聊天机器人平台替代方案的中型企业和组织中。凭借模块化架构和自托管选项，它吸引了需要遵守数据隐私法规同时保持可扩展性的企业。

为了测试Botpress，我采用了与测试Chatbase相同的方法。我在Botpress网站上创建了一个免费账户，并通过其小工具构建了一个代理(这是他们对聊天机器人的称呼)。我花了一些时间才搞清楚如何添加训练数据，因为我首先需要在一个单独的页面上创建一个表格(他们对csv格式训练数据的称呼)，然后将其作为知识库添加到我的机器人中。

Botpress提供的功能不仅仅是简单的聊天机器人。用户可以添加不同的代理和工具，并与它们组成一个工作流程，作为机器人后台推理的引擎。它比Chatbase更强大，但让一个简单的机器人运行起来花了我30到40分钟的试验和出错。

聊天机器人终于准备就绪后，我开始与它交互，询问与Chatbase机器人完全相同的问题。

对于第一个问题，机器人正确地获取了几部Android手机，但不是我所要求的预算手机：价格从$500起。它也只提供了两个选项，这相当有限制性。如果我是真实的客户，我会对这个回复感到有些沮丧。

在第二个问题中，我故意询问了一个不存在的产品，我的Botpress机器人表现很好，正确地说明没有产品匹配我的查询。

第三，我再次询问了关于比较手机相机的复杂问题。我的Botpress机器人表现很好，说明了每个选项的属性，并推荐何时购买其中一个。然而，格式不是很好，因为每个产品的属性都被压缩到一个单独的项目符号中。

Botpress还具有一键发布功能，可以为您的聊天机器人创建独立的URL，并为最受欢迎的用例(实现聊天气泡、嵌入网站等)提供简单的指导。

Botpress在测试中表现良好。某些答案缺乏完善可能是由于在测试日期它默认使用了较旧的模型(gpt-4o-2024-08-06)。它比Chatbase具有更全面的工作流程功能，然而，对于新用户来说，UI导航相当困难。我给它评分8/10。

Langchain

基于代码的框架LangChain于2022年出现，以回应对开发者友好框架构建AI驱动应用程序日益增长的需求。它被设计用来与流行的LLM如GPT-4、Claude和开源替代品集成，并允许软件工程师创建具有高级推理能力、记忆和动态API集成的自定义AI助手。该框架在希望构建超越基本聊天机器人交互的基于代理系统的AI工程师和初创公司中获得了快速采用，并已成为LLM驱动应用程序和AI代理的首选框架。

对于这个测试，我使用Langchain框架编写了自己的聊天机器人。这是一个文档非常完善的框架，所以入门相当容易。从空存储库到下面图像中的聊天机器人，我花了大约30到40分钟(在Cursor的帮助下完成样板代码、冗长的代码块和最后的一些格式调整)。生成的代码可以在本书的Github存储库中找到。我在本地机器上运行它，并为此测试使用了gpt-4o-mini模型。

白色背景上的白色文字 AI生成的内容可能不正确。 — 手机的屏幕截图 AI生成的内容可能不准确。

工具	用户体验	测试性能
Chatbase	无代码AI聊天机器人	9/10
Botpress	拖拽式聊天机器人构建器	8/10
Langchain	AI代码框架	10/10

目录

软件开发中的Generative AI

早期发布版本修订历史

简明目录(尚未最终确定)

第1章.代码生成和自动补全

早期发布读者须知

代码生成工具的类型

用例

评估过程

基于浏览器的工具

ChatGPT

优点

缺点

上下文窗口有限

幻觉

实际示例

示例1-2. ChatGPT生成的解决挑战的代码

示例1-3. ChatGPT解决代码挑战的输出

Google Gemini

示例1-4.运行Google Gemini编程挑战解决方案后的控制台输出。

示例1-5.导致Google Gemini解决方案部分失败的代码部分。

基于IDE的工具

GitHub Copilot

优点

缺点

实际示例

图1-1. GitHub Copilot在我的IDE（Visual Studio Code）中的UX界面。

图1-2. 当我按下快捷键时GitHub Copilot的提示小部件弹出。

示例1-6. GitHub Copilot生成的解决方案的控制台输出。

示例 1-7. GitHub Copilot 生成的代码来解决挑战。

Amazon Code Whisperer

示例 1-8. Amazon Code Whisperer 生成的代码的控制台输出。

工具比较

结论

第二章 用户界面和用户体验设计

致早期发布读者的说明

AI设计和前端开发工具的类型

使用UI工具进行UI/UX的优缺点

UI/UX AI工具的用例

评估过程

UI工具

Uizard

实际示例

Galileo AI

实际案例：提示词到UI功能

实际案例：UI到代码功能

UX工具

QoQo.ai

Research Studio

图2-9. Research Studio从调查回复生成的洞察地图。

图2-10. Research Studio生成的用户画像。

工具比较

结论

第3章 Bug检测和代码审查

早期版本读者须知

AI代码审查工具的类型

使用案例

教育软件工程师

提高软件开发速度

减少技术债务

为代码审查增加深度

保持人工审查

工具评估

示例3-1. [第3章]测试的代码片段

Codacy

实际示例

图3-1. Codacy识别了SQL注入漏洞。

图3-2. Codacy解释了SQL注入漏洞。

图3-3. Codacy识别了跨站脚本漏洞。

图3-4. Codacy解释了跨站脚本漏洞。

图3-5. Codacy为发现的问题提供建议修复方案。

DeepCode (by Snyk)

实际示例

CodeRabbit

实践案例

工具比较

结论

第4章. 自动化质量保证

早期发布读者须知

AI测试工具的类型

第二章用户界面和用户体验设计

第5章预测分析和性能优化

第7章聊天机器人和虚拟助手