|
@@ -151,12 +151,12 @@
|
|
|
* **优点:** 在推理效率上远超MHA,同时在模型性能上优于MQA。它提供了一个灵活的旋钮,可以根据具体需求在效率和效果之间进行调整。Llama 2等模型就采用了GQA。
|
|
* **优点:** 在推理效率上远超MHA,同时在模型性能上优于MQA。它提供了一个灵活的旋钮,可以根据具体需求在效率和效果之间进行调整。Llama 2等模型就采用了GQA。
|
|
|
|
|
|
|
|
**总结:**
|
|
**总结:**
|
|
|
- | 特性 | MHA (Multi-Head Attention) | MQA (Multi-Query Attention) | GQA (Grouped-Query Attention) |
|
|
|
|
|
- | :--- | :--- | :--- | :--- |
|
|
|
|
|
- | **结构** | N个Q头, N个K头, N个V头 | N个Q头, 1个K头, 1个V头 | N个Q头, G个K头, G个V头 |
|
|
|
|
|
- | **模型质量** | 最高 | 可能下降 | 接近MHA,优于MQA |
|
|
|
|
|
- | **推理效率** | 最低 (KV Cache大) | 最高 (KV Cache小) | 居中,远好于MHA |
|
|
|
|
|
- | **应用** | BERT, GPT-3 | PaLM | Llama 2, Mixtral |
|
|
|
|
|
|
|
+ | 特性 | MHA (Multi-Head Attention) | MQA (Multi-Query Attention) | GQA (Grouped-Query Attention) |
|
|
|
|
|
+ | :----------- | :------------------------- | :-------------------------- | :---------------------------- |
|
|
|
|
|
+ | **结构** | N个Q头, N个K头, N个V头 | N个Q头, 1个K头, 1个V头 | N个Q头, G个K头, G个V头 |
|
|
|
|
|
+ | **模型质量** | 最高 | 可能下降 | 接近MHA,优于MQA |
|
|
|
|
|
+ | **推理效率** | 最低 (KV Cache大) | 最高 (KV Cache小) | 居中,远好于MHA |
|
|
|
|
|
+ | **应用** | BERT, GPT-3 | PaLM | Llama 2, Mixtral |
|
|
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
@@ -302,11 +302,11 @@
|
|
|
* **特点:** WordPiece在切分时,通常会在单词的非起始部分子词前加上特殊符号(如`##`),例如 "tokenization" 可能会被切分为 `("token", "##ization")`。
|
|
* **特点:** WordPiece在切分时,通常会在单词的非起始部分子词前加上特殊符号(如`##`),例如 "tokenization" 可能会被切分为 `("token", "##ization")`。
|
|
|
|
|
|
|
|
**主要区别总结:**
|
|
**主要区别总结:**
|
|
|
- | 特性 | BPE (Byte Pair Encoding) | WordPiece |
|
|
|
|
|
- | :--- | :--- | :--- |
|
|
|
|
|
|
|
+ | 特性 | BPE (Byte Pair Encoding) | WordPiece |
|
|
|
|
|
+ | :--------------- | :------------------------------------------- | :--------------------------------------------------------- |
|
|
|
| **合并决策标准** | **频率驱动**:合并出现次数最多的相邻子词对。 | **似然驱动**:合并能最大化提升语料库语言模型似然的子词对。 |
|
|
| **合并决策标准** | **频率驱动**:合并出现次数最多的相邻子词对。 | **似然驱动**:合并能最大化提升语料库语言模型似然的子词对。 |
|
|
|
- | **理论基础** | 数据压缩算法,简单高效。 | 概率语言模型,理论上更优。 |
|
|
|
|
|
- | **应用代表** | GPT, Llama, RoBERTa | BERT, T5 |
|
|
|
|
|
|
|
+ | **理论基础** | 数据压缩算法,简单高效。 | 概率语言模型,理论上更优。 |
|
|
|
|
|
+ | **应用代表** | GPT, Llama, RoBERTa | BERT, T5 |
|
|
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
@@ -376,12 +376,12 @@
|
|
|
L2是更常用、更通用的正则化方法。当特征之间可能存在相关性(共线性),或者你认为绝大多数特征都对预测有或多或少的贡献时,L2是首选。它能有效地提高模型的泛化能力,使其在未见过的数据上表现更好。在深度学习中,“权重衰减”通常就是指L2正则化。
|
|
L2是更常用、更通用的正则化方法。当特征之间可能存在相关性(共线性),或者你认为绝大多数特征都对预测有或多或少的贡献时,L2是首选。它能有效地提高模型的泛化能力,使其在未见过的数据上表现更好。在深度学习中,“权重衰减”通常就是指L2正则化。
|
|
|
|
|
|
|
|
**总结对比:**
|
|
**总结对比:**
|
|
|
- | 对比项 | L1 正则化 | L2 正则化 |
|
|
|
|
|
- | :--- | :--- | :--- |
|
|
|
|
|
- | **惩罚项** | 权重的绝对值之和 (L1范数) | 权重的平方和 (L2范数) |
|
|
|
|
|
- | **效果** | 权重稀疏化,部分权重为0 | 权重平滑化,权重趋近于0 |
|
|
|
|
|
- | **主要用途** | 特征选择,简化模型 | 防止过拟合,提升泛化能力 |
|
|
|
|
|
- | **解的特性** | 不稳定,数据微小变动可能导致特征集变化 | 稳定,解是唯一的 |
|
|
|
|
|
|
|
+ | 对比项 | L1 正则化 | L2 正则化 |
|
|
|
|
|
+ | :----------- | :------------------------------------- | :----------------------- |
|
|
|
|
|
+ | **惩罚项** | 权重的绝对值之和 (L1范数) | 权重的平方和 (L2范数) |
|
|
|
|
|
+ | **效果** | 权重稀疏化,部分权重为0 | 权重平滑化,权重趋近于0 |
|
|
|
|
|
+ | **主要用途** | 特征选择,简化模型 | 防止过拟合,提升泛化能力 |
|
|
|
|
|
+ | **解的特性** | 不稳定,数据微小变动可能导致特征集变化 | 稳定,解是唯一的 |
|
|
|
|
|
|
|
|
---
|
|
---
|
|
|
|
|
|
|
@@ -674,13 +674,13 @@
|
|
|
* **参考答案:**
|
|
* **参考答案:**
|
|
|
当前主流的VLM架构范式,根据视觉和语言信息融合方式的不同,主要可以分为两大类:**基于连接器的架构** 和 **基于跨模态注意力的架构**。
|
|
当前主流的VLM架构范式,根据视觉和语言信息融合方式的不同,主要可以分为两大类:**基于连接器的架构** 和 **基于跨模态注意力的架构**。
|
|
|
|
|
|
|
|
- | **架构范式** | **基于连接器(Connector-based)** | **基于跨模态注意力(Cross-Attention-based)** |
|
|
|
|
|
- | --- | --- | --- |
|
|
|
|
|
- | **代表模型** | LLaVA, MiniGPT-4 | Flamingo, BLIP-2 |
|
|
|
|
|
- | **核心思想** | **前期对齐,后期融合**。将视觉特征通过一个轻量级模块“翻译”成LLM能理解的“视觉词元”,然后与文本词元拼接,让LLM统一处理。 | **边生成边融合**。在LLM内部插入跨模态注意力层,允许文本特征在生成的每一步都动态地“查询”和“参考”视觉特征。 |
|
|
|
|
|
- | **工作流程** | 1. 视觉编码器提特征<br>2. 连接器将视觉特征转为定长的Visual Tokens<br>3. `[Visual Tokens] + [Text Tokens]` 送入LLM | 1. 视觉编码器提特征<br>2. LLM在生成文本时,其内部的Query会与视觉特征的Key/Value进行Cross-Attention计算,动态注入视觉信息。 |
|
|
|
|
|
- | **优势** | **1. 训练和推理效率高:** 只需训练一个轻量级的连接器,且可以复用强大的预训练视觉和语言模型,成本较低。<br>**2. 架构简洁优雅:** 实现简单,易于扩展和复现。<br>**3. 性能强大:** 在许多基准上证明了其有效性,尤其是在视觉指令跟随方面。 | **1. 深度融合:** 视觉和语言信息的交互发生在LLM的每一层或多层,融合得更充分、更深入。<br>**2. 少样本学习能力强:** Flamingo证明了这种架构在上下文少样本学习(in-context few-shot learning)上表现极其出色。<br>**3. 对视觉细节的动态捕捉:** 在生成长文本时,可以根据需要动态地关注图像的不同部分。 |
|
|
|
|
|
- | **劣势** | **1. 信息瓶颈:** 视觉信息被连接器压缩成固定数量的“视觉词元”,可能在转换过程中丢失部分细节,存在信息瓶颈。<br>**2. 融合深度较浅:** 视觉和语言的融合完全依赖于LLM自身的自注意力机制,不如显式的跨模态注意力来得直接。 | **1. 架构复杂,训练成本高:** 需要修改LLM的内部结构,并进行大规模的训练,计算开销巨大。<br>**2. 推理速度较慢:** 额外的跨模态注意力计算增加了推理时的延迟。 |
|
|
|
|
|
|
|
+ | **架构范式** | **基于连接器(Connector-based)** | **基于跨模态注意力(Cross-Attention-based)** |
|
|
|
|
|
+ | ------------ | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
|
|
|
|
|
+ | **代表模型** | LLaVA, MiniGPT-4 | Flamingo, BLIP-2 |
|
|
|
|
|
+ | **核心思想** | **前期对齐,后期融合**。将视觉特征通过一个轻量级模块“翻译”成LLM能理解的“视觉词元”,然后与文本词元拼接,让LLM统一处理。 | **边生成边融合**。在LLM内部插入跨模态注意力层,允许文本特征在生成的每一步都动态地“查询”和“参考”视觉特征。 |
|
|
|
|
|
+ | **工作流程** | 1. 视觉编码器提特征<br>2. 连接器将视觉特征转为定长的Visual Tokens<br>3. `[Visual Tokens] + [Text Tokens]` 送入LLM | 1. 视觉编码器提特征<br>2. LLM在生成文本时,其内部的Query会与视觉特征的Key/Value进行Cross-Attention计算,动态注入视觉信息。 |
|
|
|
|
|
+ | **优势** | **1. 训练和推理效率高:** 只需训练一个轻量级的连接器,且可以复用强大的预训练视觉和语言模型,成本较低。<br>**2. 架构简洁优雅:** 实现简单,易于扩展和复现。<br>**3. 性能强大:** 在许多基准上证明了其有效性,尤其是在视觉指令跟随方面。 | **1. 深度融合:** 视觉和语言信息的交互发生在LLM的每一层或多层,融合得更充分、更深入。<br>**2. 少样本学习能力强:** Flamingo证明了这种架构在上下文少样本学习(in-context few-shot learning)上表现极其出色。<br>**3. 对视觉细节的动态捕捉:** 在生成长文本时,可以根据需要动态地关注图像的不同部分。 |
|
|
|
|
|
+ | **劣势** | **1. 信息瓶颈:** 视觉信息被连接器压缩成固定数量的“视觉词元”,可能在转换过程中丢失部分细节,存在信息瓶颈。<br>**2. 融合深度较浅:** 视觉和语言的融合完全依赖于LLM自身的自注意力机制,不如显式的跨模态注意力来得直接。 | **1. 架构复杂,训练成本高:** 需要修改LLM的内部结构,并进行大规模的训练,计算开销巨大。<br>**2. 推理速度较慢:** 额外的跨模态注意力计算增加了推理时的延迟。 |
|
|
|
|
|
|
|
|
**总结:** 基于连接器的架构是当前实现高性价比、高性能VLM的主流方案,追求效率和简洁。而基于跨模态注意力的架构则代表了追求极致性能和深度融合的方向,但成本更高。
|
|
**总结:** 基于连接器的架构是当前实现高性价比、高性能VLM的主流方案,追求效率和简洁。而基于跨模态注意力的架构则代表了追求极致性能和深度融合的方向,但成本更高。
|
|
|
|
|
|
|
@@ -1020,13 +1020,13 @@
|
|
|
|
|
|
|
|
**与传统RLHF(基于PPO)的主要区别和优势:**
|
|
**与传统RLHF(基于PPO)的主要区别和优势:**
|
|
|
|
|
|
|
|
- | **特性** | **传统RLHF (PPO-based)** | **DPO (Direct Preference Optimization)** |
|
|
|
|
|
- | :--- | :--- | :--- |
|
|
|
|
|
- | **流程阶段** | **三阶段:** 1. SFT <br> 2. 训练RM <br> 3. PPO-RL | **两阶段:** 1. SFT <br> 2. 直接在偏好数据上微调 |
|
|
|
|
|
- | **核心组件** | 需要一个**显式的奖励模型(RM)**和复杂的**强化学习**训练循环(采样、评估、更新)。 | **不需要**独立的奖励模型,也**不需要**强化学习。 |
|
|
|
|
|
|
|
+ | **特性** | **传统RLHF (PPO-based)** | **DPO (Direct Preference Optimization)** |
|
|
|
|
|
+ | :----------- | :----------------------------------------------------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------------------------------------------- |
|
|
|
|
|
+ | **流程阶段** | **三阶段:** 1. SFT <br> 2. 训练RM <br> 3. PPO-RL | **两阶段:** 1. SFT <br> 2. 直接在偏好数据上微调 |
|
|
|
|
|
+ | **核心组件** | 需要一个**显式的奖励模型(RM)**和复杂的**强化学习**训练循环(采样、评估、更新)。 | **不需要**独立的奖励模型,也**不需要**强化学习。 |
|
|
|
| **训练过程** | **复杂且不稳定**:涉及Actor、Critic、RM和SFT四个模型,超参数多(如 $\beta$ , $\lambda$ 等),对实现细节敏感,容易出现奖励作弊和训练崩溃。 | **简单且稳定**:本质上是一个监督学习任务,直接在偏好数据上计算损失并用梯度下降更新模型。实现简单,超参数少,训练过程稳定。 |
|
|
| **训练过程** | **复杂且不稳定**:涉及Actor、Critic、RM和SFT四个模型,超参数多(如 $\beta$ , $\lambda$ 等),对实现细节敏感,容易出现奖励作弊和训练崩溃。 | **简单且稳定**:本质上是一个监督学习任务,直接在偏好数据上计算损失并用梯度下降更新模型。实现简单,超参数少,训练过程稳定。 |
|
|
|
- | **计算成本** | **高**:PPO需要在推理模式下从策略模型中大量采样生成数据,并用RM进行评估,计算开销大。 | **低**:只需要计算偏好对中两个回答的似然概率,无需额外采样和奖励模型的前向传播。 |
|
|
|
|
|
- | **效果** | 效果已被广泛验证,是工业界标准。 | 在许多任务上被证明**效果持平甚至优于**传统RLHF,同时成本更低。 |
|
|
|
|
|
|
|
+ | **计算成本** | **高**:PPO需要在推理模式下从策略模型中大量采样生成数据,并用RM进行评估,计算开销大。 | **低**:只需要计算偏好对中两个回答的似然概率,无需额外采样和奖励模型的前向传播。 |
|
|
|
|
|
+ | **效果** | 效果已被广泛验证,是工业界标准。 | 在许多任务上被证明**效果持平甚至优于**传统RLHF,同时成本更低。 |
|
|
|
|
|
|
|
|
**总结优势:**
|
|
**总结优势:**
|
|
|
DPO相对于传统RLHF的主要优势是**简洁、稳定、高效**。它大大简化了对齐流程,降低了实现难度和计算成本,使得偏好对齐技术更容易被广泛应用,同时在效果上也不逊色于甚至超越了复杂的RLHF方法。
|
|
DPO相对于传统RLHF的主要优势是**简洁、稳定、高效**。它大大简化了对齐流程,降低了实现难度和计算成本,使得偏好对齐技术更容易被广泛应用,同时在效果上也不逊色于甚至超越了复杂的RLHF方法。
|
|
@@ -1220,7 +1220,7 @@
|
|
|
|
|
|
|
|
**如何结合思维链(CoT)和行动?**
|
|
**如何结合思维链(CoT)和行动?**
|
|
|
* **思维链 (Chain of Thought, CoT)** 是一种让LLM通过生成中间推理步骤来解决复杂问题的方法。
|
|
* **思维链 (Chain of Thought, CoT)** 是一种让LLM通过生成中间推理步骤来解决复杂问题的方法。
|
|
|
- * ReAct中的**“思考 (Thought)”**部分,本质上就是一种**动态的、交互式的思维链**。
|
|
|
|
|
|
|
+ * ReAct中的**思考 (Thought)**部分,本质上就是一种**动态的、交互式的思维链**。
|
|
|
* 传统的CoT是一次性生成所有思考步骤,然后得出答案。而ReAct的“思考”是**每一步行动前**都会进行的、**基于最新观察结果**的思维链。
|
|
* 传统的CoT是一次性生成所有思考步骤,然后得出答案。而ReAct的“思考”是**每一步行动前**都会进行的、**基于最新观察结果**的思维链。
|
|
|
* 这种结合使得Agent能够:
|
|
* 这种结合使得Agent能够:
|
|
|
* **处理动态环境:** 可以根据工具返回的最新信息实时调整策略。
|
|
* **处理动态环境:** 可以根据工具返回的最新信息实时调整策略。
|
|
@@ -1355,11 +1355,11 @@
|
|
|
|
|
|
|
|
**核心应用场景的不同:**
|
|
**核心应用场景的不同:**
|
|
|
|
|
|
|
|
- | **特性** | **LangChain** | **LlamaIndex** |
|
|
|
|
|
- | :--- | :--- | :--- |
|
|
|
|
|
- | **最擅长的场景** | **构建复杂的、多步骤的Agent**:当你的应用需要调用多个不同的工具、维护复杂的对话状态、并遵循一个精心设计的执行逻辑时,LangChain的Agent Executor和Chains提供了极大的灵活性。 | **构建高性能的RAG系统**:当你的核心需求是搭建一个强大的知识库问答系统(Q&A over your data),需要处理复杂的非结构化数据(PDF, PPT)、构建高级索引(如树索引、关键词表索引)、并优化检索质量时,LlamaIndex是首选。 |
|
|
|
|
|
- | **应用举例** | 1. 一个能上网搜索、执行代码、并调用计算器的**通用研究助手**。<br>2. 一个能连接公司内部API来查询订单、更新客户信息的**自动化客服Agent**。<br>3. 一个能执行一系列复杂操作的**自动化流程(RPA)**。 | 1. 一个能够回答关于公司内部海量技术文档问题的**开发者助手**。<br>2. 一个能够结合多份PDF财报进行深度分析和回答的**金融分析工具**。<br>3. 一个私人的、基于个人笔记库(Notion, Obsidian)的**知识管理和问答系统**。 |
|
|
|
|
|
- | **功能交叉** | LangChain也内置了RAG功能(Document Loaders, Vector Stores, Retrievers),但相对LlamaIndex来说,其高级功能和可定制性较少。 | LlamaIndex也引入了Agent的概念(Data Agent),允许LLM智能地选择不同的数据源和查询策略,但其Agent的通用性和复杂工具编排能力不如LangChain。 |
|
|
|
|
|
|
|
+ | **特性** | **LangChain** | **LlamaIndex** |
|
|
|
|
|
+ | :--------------- | :----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | :---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
|
|
|
|
|
+ | **最擅长的场景** | **构建复杂的、多步骤的Agent**:当你的应用需要调用多个不同的工具、维护复杂的对话状态、并遵循一个精心设计的执行逻辑时,LangChain的Agent Executor和Chains提供了极大的灵活性。 | **构建高性能的RAG系统**:当你的核心需求是搭建一个强大的知识库问答系统(Q&A over your data),需要处理复杂的非结构化数据(PDF, PPT)、构建高级索引(如树索引、关键词表索引)、并优化检索质量时,LlamaIndex是首选。 |
|
|
|
|
|
+ | **应用举例** | 1. 一个能上网搜索、执行代码、并调用计算器的**通用研究助手**。<br>2. 一个能连接公司内部API来查询订单、更新客户信息的**自动化客服Agent**。<br>3. 一个能执行一系列复杂操作的**自动化流程(RPA)**。 | 1. 一个能够回答关于公司内部海量技术文档问题的**开发者助手**。<br>2. 一个能够结合多份PDF财报进行深度分析和回答的**金融分析工具**。<br>3. 一个私人的、基于个人笔记库(Notion, Obsidian)的**知识管理和问答系统**。 |
|
|
|
|
|
+ | **功能交叉** | LangChain也内置了RAG功能(Document Loaders, Vector Stores, Retrievers),但相对LlamaIndex来说,其高级功能和可定制性较少。 | LlamaIndex也引入了Agent的概念(Data Agent),允许LLM智能地选择不同的数据源和查询策略,但其Agent的通用性和复杂工具编排能力不如LangChain。 |
|
|
|
|
|
|
|
|
**总结:**
|
|
**总结:**
|
|
|
* 如果你的项目**以Agent为核心,需要复杂的逻辑编排和多工具协作**,首选**LangChain**。
|
|
* 如果你的项目**以Agent为核心,需要复杂的逻辑编排和多工具协作**,首选**LangChain**。
|
|
@@ -1959,12 +1959,12 @@
|
|
|
|
|
|
|
|
**最关键的区别:**
|
|
**最关键的区别:**
|
|
|
|
|
|
|
|
- | 特征 | 搜索系统 | RAG系统 |
|
|
|
|
|
- | :--- | :--- | :--- |
|
|
|
|
|
- | **任务** | 找文档 (Find Documents) | 给答案 (Give Answers) |
|
|
|
|
|
- | **输出** | **文档列表** (List of sources) | **自然语言答案** (Synthesized answer) |
|
|
|
|
|
- | **用户角色** | 用户是**主动**的,需要自己阅读和总结 | 用户是**被动**的,直接获得成品答案 |
|
|
|
|
|
- | **核心组件** | 索引器 + 排序器 | **[索引器 + 排序器]** + **生成器(LLM)** |
|
|
|
|
|
|
|
+ | 特征 | 搜索系统 | RAG系统 |
|
|
|
|
|
+ | :----------- | :----------------------------------- | :-------------------------------------- |
|
|
|
|
|
+ | **任务** | 找文档 (Find Documents) | 给答案 (Give Answers) |
|
|
|
|
|
+ | **输出** | **文档列表** (List of sources) | **自然语言答案** (Synthesized answer) |
|
|
|
|
|
+ | **用户角色** | 用户是**主动**的,需要自己阅读和总结 | 用户是**被动**的,直接获得成品答案 |
|
|
|
|
|
+ | **核心组件** | 索引器 + 排序器 | **[索引器 + 排序器]** + **生成器(LLM)** |
|
|
|
|
|
|
|
|
**一个简单的比喻:**
|
|
**一个简单的比喻:**
|
|
|
* **搜索系统**就像一个图书馆的图书管理员。你问他“新加坡的历史”,他会告诉你:“关于这个主题,3楼A区的第5、6、8本书,还有4楼C区的期刊都很有用,你自己去看看吧。”
|
|
* **搜索系统**就像一个图书馆的图书管理员。你问他“新加坡的历史”,他会告诉你:“关于这个主题,3楼A区的第5、6、8本书,还有4楼C区的期刊都很有用,你自己去看看吧。”
|
|
@@ -2142,12 +2142,12 @@
|
|
|
|
|
|
|
|
**评估维度的不同:**
|
|
**评估维度的不同:**
|
|
|
|
|
|
|
|
- | **评估维度** | **基础 LLM** | **Agent** |
|
|
|
|
|
- | :--- | :--- | :--- |
|
|
|
|
|
- | **核心评估对象** | **单个回答的质量** (Quality of a single response) | **整个任务完成过程** (The entire task completion process) |
|
|
|
|
|
- | **主要维度** | - **准确性 (Accuracy)**<br>- **流畅性 (Fluency)**<br>- **相关性 (Relevance)**<br>- **安全性 (Safety)** | - **任务成功率 (Task Success Rate):** 能否最终完成目标?<br>- **效率 (Efficiency):** 完成任务花了多少资源?(见下文)<br>- **鲁棒性 (Robustness):** 能否处理异常和错误?<br>- **自主性 (Autonomy):** 在没有人类干预的情况下能走多远? |
|
|
|
|
|
- | **新增的过程维度** | (无) | - **成本 (Cost):** LLM调用次数、API费用、Token消耗。<br>- **延迟 (Latency):** 完成任务的总时间。<br>- **步骤数 (Number of Steps):** 任务分解和执行的步数。<br>- **纠错能力 (Error Recovery):** 从工具报错或错误状态中恢复的能力。 |
|
|
|
|
|
- | **评估方法** | 静态数据集上的基准测试 (MMLU, HumanEval) | **交互式环境**中的基准测试 (WebArena, AgentBench) |
|
|
|
|
|
|
|
+ | **评估维度** | **基础 LLM** | **Agent** |
|
|
|
|
|
+ | :----------------- | :----------------------------------------------------------------------------------------------------- | :------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
|
|
|
|
|
+ | **核心评估对象** | **单个回答的质量** (Quality of a single response) | **整个任务完成过程** (The entire task completion process) |
|
|
|
|
|
+ | **主要维度** | - **准确性 (Accuracy)**<br>- **流畅性 (Fluency)**<br>- **相关性 (Relevance)**<br>- **安全性 (Safety)** | - **任务成功率 (Task Success Rate):** 能否最终完成目标?<br>- **效率 (Efficiency):** 完成任务花了多少资源?(见下文)<br>- **鲁棒性 (Robustness):** 能否处理异常和错误?<br>- **自主性 (Autonomy):** 在没有人类干预的情况下能走多远? |
|
|
|
|
|
+ | **新增的过程维度** | (无) | - **成本 (Cost):** LLM调用次数、API费用、Token消耗。<br>- **延迟 (Latency):** 完成任务的总时间。<br>- **步骤数 (Number of Steps):** 任务分解和执行的步数。<br>- **纠错能力 (Error Recovery):** 从工具报错或错误状态中恢复的能力。 |
|
|
|
|
|
+ | **评估方法** | 静态数据集上的基准测试 (MMLU, HumanEval) | **交互式环境**中的基准测试 (WebArena, AgentBench) |
|
|
|
|
|
|
|
|
总结来说,对LLM的评估更像是“**产品质量检测**”,而对Agent的评估更像是“**路况复杂的真实驾驶测试**”,不仅要看是否到达终点,更要看驾驶过程中的效率、安全性和应对突发状况的能力。
|
|
总结来说,对LLM的评估更像是“**产品质量检测**”,而对Agent的评估更像是“**路况复杂的真实驾驶测试**”,不仅要看是否到达终点,更要看驾驶过程中的效率、安全性和应对突发状况的能力。
|
|
|
|
|
|