第 1 章
什么是 AI Agent
从「只会说话」到「能做事」
🎯
想象一下...
你去餐厅点了一份牛排。如果服务员只是站在那里跟你聊天,告诉你牛排应该怎么做,但从不去厨房下单 —— 这就是普通的大语言模型(LLM)。而如果服务员不仅能跟你交流,还能走进厨房、下单、端菜、结账 —— 这就是 AI Agent。
大语言模型 vs AI Agent
你可能已经用过 ChatGPT、Claude 这样的 AI 工具。它们背后的核心是「大语言模型」(Large Language Model,简称 LLM)。
LLM 非常聪明,能理解你的问题,能写文章、写代码、分析数据。但它有一个根本的局限:它只能「说」,不能「做」。
比如你问 LLM:「帮我把这个文件的第 10 行改成 hello」,LLM 能告诉你应该怎么改,但它无法真正打开文件、修改内容、保存文件。
AI Agent 就是为了解决这个问题而存在的。它在 LLM 的基础上,加上了一套「基础设施」,让 AI 真正能够:
• 读写文件
• 执行命令
• 搜索信息
• 与外部工具交互
• 协调多个子任务
| 对比项 | 普通 LLM | AI Agent |
|---|---|---|
| 核心能力 | 理解和生成文本 | 理解、决策、执行 |
| 能否操作文件 | ❌ 不能 | ✅ 可以 |
| 能否运行代码 | ❌ 不能 | ✅ 可以 |
| 能否搜索网页 | ❌ 不能 | ✅ 可以 |
| 工作方式 | 一问一答 | 循环:思考 → 行动 → 观察 → 再思考 |
| 比喻 | 一个聪明的大脑 | 一个有手有脚的聪明人 |
为什么 AI Agent 如此重要?
想象一下这个场景:
你对 AI 说:「帮我创建一个新的 React 项目,安装依赖,写一个登录页面,然后运行测试。」
如果是普通 LLM,它只能给你一步步的文字指导。
但如果是 AI Agent,它会真正地:
1. 执行 npx create-react-app 创建项目
2. 运行 npm install 安装依赖
3. 创建文件、写入代码
4. 运行 npm test 检查结果
5. 如果测试失败,自动修复并重试
这就是 AI Agent 的威力 —— 它不只是给建议,而是真正完成任务。
📌 关键要点
AI Agent = LLM + 基础设施
AI Agent 的核心公式很简单:在大语言模型的智能之上,叠加一层「基础设施」(也叫 Harness),让它能够感知环境、使用工具、采取行动。下一章我们就来详细了解这个「基础设施」到底是什么。
🧠 检验理解
以下哪个描述最准确地区分了 LLM 和 AI Agent?
🧠 检验理解
当你对 AI Agent 说「帮我在 config.json 里添加一个字段」,Agent 会怎么做?