作者: Jay Alammar & Maarten Grootendorst
本章为全书奠定基础,追溯了语言AI的发展历程,并明确了贯穿全书的核心模型分类。
深入探讨LLM处理文本的两个基本构建块:如何将文本分解为模型能理解的单元(Token),以及如何将这些单元转化为有意义的数字表示(Embedding)。
这是将文本分解成小单元(Token)的过程。常见的方案有:
词嵌入是Token的数值化表示(向量),它不仅仅是数字,更捕捉了Token的语义信息。模型通过一个巨大的嵌入矩阵(Embedding Matrix)来查找每个Token ID对应的向量。
本章以图文并茂的方式,解构了Transformer架构的核心——自注意力机制,揭示了LLM如何“思考”和生成文本。
这是Transformer的灵魂。它允许模型在处理一个Token时,权衡输入序列中所有其他Token的重要性,从而动态地捕捉上下文关系。
介绍如何使用预训练好的LLM(无需微调)完成经典的NLP任务——文本分类。
distilbert-base-uncased-finetuned-sst-2-english
)进行预测。all-mpnet-base-v2
)将文本转换为向量,然后训练一个简单的分类器(如逻辑回归)来完成分类。此方法更灵活。探索无监督学习,即在没有标签的情况下,如何从大量文本中发现潜在的结构和主题。
BERTopic是一个模块化的主题建模框架,它将上述聚类流程与主题表示相结合。
这是一门“与LLM有效沟通的艺术”,通过设计和优化输入提示,引导模型产生高质量、符合预期的输出。
将LLM从一个独立的模型,升级为能够与外部世界交互、利用外部知识的复杂系统。
不同于传统的关键词匹配,语义搜索通过嵌入向量的相似度来查找内容,能够理解查询背后的真实意图。
RAG是解决LLM“幻觉”(捏造事实)和知识过时问题的关键技术。其流程为:
智能体是一个更高级的系统,它以LLM为“大脑”,不仅能检索信息,还能决定使用何种“工具”(如计算器、API调用、代码执行器)来完成复杂任务,并根据工具返回的结果进行下一步规划。
让LLM突破文本的限制,能够理解和处理图像等多种类型的数据。
ViT将Transformer架构成功应用于视觉领域。它的核心思想是将图像分割成一个个小图块(Patches),然后将这些图块像处理文本Token一样送入Transformer进行编码。
从使用现成模型转向根据特定需求定制自己的模型,主要聚焦于表征模型(如BERT)。
这是训练高质量嵌入模型的核心方法。其目标是让模型学会拉近“相似”样本对(正样本)在向量空间中的距离,同时推远“不相似”样本对(负样本)的距离。SBERT框架就是基于此原理。
本章是全书的高潮,讲解如何将一个只会“续写”的基础模型,调教成一个听话、有用的聊天机器人或任务助手。
全参数微调生成模型成本极高。PEFT技术只训练模型一小部分参数,就能达到接近全参数微调的效果。