|
|
@@ -15,7 +15,7 @@
|
|
|
然而,真正赋予智能体“智能”的,是其**自主性(Autonomy)**。智能体并非只是被动响应外部刺激或严格执行预设指令的程序,它能够基于其感知和内部状态进行独立决策,以达成其设计目标。这种从感知到行动的闭环,构成了所有智能体行为的基础,如图1.1所示。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-0.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-0.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.1 智能体与环境的基本交互循环</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -28,7 +28,7 @@
|
|
|
这种智能体完全依赖于当前的感知输入,不具备记忆或预测能力。它像一种数字化的本能,可靠且高效,但也因此无法应对需要理解上下文的复杂任务。它的局限性引出了一个关键问题:如果环境的当前状态不足以作为决策的全部依据,智能体该怎么办?
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-1.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-1.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.2 简单反射智能体的决策逻辑示意图</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -54,7 +54,7 @@
|
|
|
|
|
|
<div align="center">
|
|
|
<p>表 1.1 传统智能体与LLM驱动智能体的核心对比</p>
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-2.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-2.png" alt="图片描述" width="90%"/>
|
|
|
</div>
|
|
|
|
|
|
这种差异使得LLM智能体可以直接处理高层级、模糊且充满上下文信息的自然语言指令。它不需要用户将需求拆解成机器可以理解的结构化输入,只需要输入人类的自然语言即可。
|
|
|
@@ -80,7 +80,7 @@
|
|
|
除了内部架构的复杂性,还可以从智能体处理决策的时间维度进行分类。这个视角关注智能体是在接收到信息后立即行动,还是会经过深思熟虑的规划再行动。这揭示了智能体设计中一个核心权衡:追求速度的**反应性(Reactivity)**与追求最优解的**规划性(Deliberation)**之间的平衡,如图1.3所示。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-3.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-3.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.3 智能体决策时间与质量关系图</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -133,7 +133,7 @@
|
|
|
- **系统2**是缓慢、有条理、基于逻辑的审慎思维,恰如符号主义AI的推理过程。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-4.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-4.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.4 符号主义、亚符号主义与神经符号混合主义的知识表示范式</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -151,7 +151,7 @@
|
|
|
这个循环构成了所有LLM智能体运作的基本模式,如图1.5所示。1.2.1节将从环境的构成入手,进一步探讨该交互机制的属性及其对智能体设计的影响。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-5.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-5.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.5 智能体与环境交互的基本循环</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -161,7 +161,7 @@
|
|
|
|
|
|
<div align="center">
|
|
|
<p>表 1.2 旅行规划智能体的PEAS描述</p>
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-6.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-6.png" alt="图片描述" width="90%"/>
|
|
|
</div>
|
|
|
|
|
|
在实践中,LLM智能体所处的数字环境展现出若干复杂特性,这些特性直接影响着智能体的设计。
|
|
|
@@ -513,7 +513,7 @@ class ObservationImpl:
|
|
|
最后,我们将上述四个独立的模块化组件进行集成,构建一个完整的 `AgentLoopDemo`。这个类展示了四个阶段如何被依次调用和协同工作,形成一个从接收原始输入到生成最终响应的、端到端的处理流水线,具体流程如图1.6所示。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-7.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-7.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.6 智能体行动循环的实现流程</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -862,14 +862,14 @@ if __name__ == "__main__":
|
|
|
Cursor 接收到指令后,会立即分析需求,并同时为这三个文件生成对应的代码。它不会直接覆写文件,而是在聊天窗口中以代码差异的形式,清晰地展示将要应用的全部修改,如图 1.7 所示。这为开发者提供了一个审查和确认的环节。在确认 AI 的方案无误后,只需点击视为接受的按钮,所有代码就会被自动、准确地写入对应的文件中。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-8.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-8.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.7 Cursor界面展示了AI为三个文件生成的代码</p>
|
|
|
</div>
|
|
|
|
|
|
最终,我们得到了一个功能完备、可直接在浏览器中运行的“贪吃蛇”游戏,如图 1.8 所示。这个过程将传统开发中需要数小时的手动编码工作,压缩为一次与 AI 的自然语言交互,极大地提升了从概念到可运行原型的开发效率。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-9.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-9.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.8 贪吃蛇游戏运行界面</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -939,7 +939,7 @@ function processOrder(order) {
|
|
|
Cursor 的 AI 会立刻理解你的意图,分析函数内部的逻辑块,并生成重构方案。它不会直接修改你的代码,而是提供一个清晰的差异对比预览。如图1.9所示,你可以清楚地看到哪些代码被移除(红色),哪些是新增的(绿色),确保所有改动都在你的掌控之中。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-10.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-10.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.9 Cursor界面展示函数代码重构过程</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -974,7 +974,7 @@ Uncaught TypeError: Cannot set properties of null (setting 'textContent')
|
|
|
```
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-11.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-11.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.10 Cursor开发程序报错提示</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -988,7 +988,7 @@ Uncaught TypeError: Cannot set properties of null (setting 'textContent')
|
|
|
Cursor 会结合错误信息和 `app.js` 的源代码进行综合分析,迅速给出诊断和解决方案。它不仅会解释发生了什么,还会深入说明为什么会发生,并提供一段可以直接应用的、更健壮的代码。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-12.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-12.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.11 Cursor开发程序报错提示</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -1024,7 +1024,7 @@ AgentGPT是最早引发大众对自主智能体广泛关注的开源项目之一
|
|
|
接收到目标后,AgentGPT并不会立即执行单一动作,而是首先进行一次全面的任务规划。它会将“为精品咖啡店进行市场分析”这个高层级目标,分解成一个详尽的任务列表。正如真实操作界面所示,它会生成一系列具体的子任务,如图1.12所示。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-13.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-13.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.12 AgentGPT运行过程</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -1053,7 +1053,7 @@ AgentGPT的实操过程淋漓尽致地展现了单智能体范式的力量。它
|
|
|
```
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-14.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-14.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.13 CAMEL框架执行任务过程</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -1079,14 +1079,14 @@ CAMEL的协作模式通过角色分工,它有效地避免了单智能体在专
|
|
|
```
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-15.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-15.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.14 Manus AI执行任务过程</p>
|
|
|
</div>
|
|
|
|
|
|
Manus AI接收到任务后,其内部的虚拟团队便开始了高效的协同工作。如图1.14所示,这远比线性的单智能体或双智能体对话要复杂。其内部的规划智能体首先像项目经理一样,将任务分解为清晰的项目蓝图。随后多个执行智能体像开发团队一样并行工作,分别处理门户页面、全局样式和各个独立的游戏模块,在验证智能体进行代码审查和功能测试后,交付智能体最终会将所有文件打包。最终产出的,便是一个可以直接解压部署的完整项目,如图1.15的“PIXEL DEMO”项目实况所示,一个结构完整、功能可用的多页面网站。
|
|
|
|
|
|
<div align="center">
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-16.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-16.png" alt="图片描述" width="90%"/>
|
|
|
<p>图 1.15 PIXEL DEMO项目实况展示</p>
|
|
|
</div>
|
|
|
|
|
|
@@ -1178,7 +1178,7 @@ JSON作为一种机器可读格式,确保了指令的无歧义性。通信模
|
|
|
|
|
|
<div align="center">
|
|
|
<p>表 1.3 符号型与LLM驱动的多智能体系统对比</p>
|
|
|
- <img src="https://raw.githubusercontent.com/datawhalechina/hl-mas/main/docs/images/1-figures/1757242319667-17.png" alt="图片描述" width="90%"/>
|
|
|
+ <img src="https://raw.githubusercontent.com/datawhalechina/Hello-Agents/main/docs/images/1-figures/1757242319667-17.png" alt="图片描述" width="90%"/>
|
|
|
</div>
|
|
|
|
|
|
综上,LLM的融入并非局部改良,而是一场范式革命。它将多智能体系统从一个需要被精确编程的、基于知识的系统,转变为一个可通过自然语言引导的、基于能力的通用问题解决器。
|