第 1 章

什么是 AI Agent

从「只会说话」到「能做事」

🎯

想象一下...

你去餐厅点了一份牛排。如果服务员只是站在那里跟你聊天，告诉你牛排应该怎么做，但从不去厨房下单 —— 这就是普通的大语言模型（LLM）。而如果服务员不仅能跟你交流，还能走进厨房、下单、端菜、结账 —— 这就是 AI Agent。

大语言模型 vs AI Agent

你可能已经用过 ChatGPT、Claude 这样的 AI 工具。它们背后的核心是「大语言模型」（Large Language Model，简称 LLM）。 LLM 非常聪明，能理解你的问题，能写文章、写代码、分析数据。但它有一个根本的局限：它只能「说」，不能「做」。比如你问 LLM：「帮我把这个文件的第 10 行改成 hello」，LLM 能告诉你应该怎么改，但它无法真正打开文件、修改内容、保存文件。 AI Agent 就是为了解决这个问题而存在的。它在 LLM 的基础上，加上了一套「基础设施」，让 AI 真正能够： • 读写文件 • 执行命令 • 搜索信息 • 与外部工具交互 • 协调多个子任务

对比项	普通 LLM	AI Agent
核心能力	理解和生成文本	理解、决策、执行
能否操作文件	❌ 不能	✅ 可以
能否运行代码	❌ 不能	✅ 可以
能否搜索网页	❌ 不能	✅ 可以
工作方式	一问一答	循环：思考 → 行动 → 观察 → 再思考
比喻	一个聪明的大脑	一个有手有脚的聪明人

为什么 AI Agent 如此重要？

想象一下这个场景：你对 AI 说：「帮我创建一个新的 React 项目，安装依赖，写一个登录页面，然后运行测试。」如果是普通 LLM，它只能给你一步步的文字指导。但如果是 AI Agent，它会真正地： 1. 执行 npx create-react-app 创建项目 2. 运行 npm install 安装依赖 3. 创建文件、写入代码 4. 运行 npm test 检查结果 5. 如果测试失败，自动修复并重试这就是 AI Agent 的威力 —— 它不只是给建议，而是真正完成任务。

📌 关键要点

AI Agent = LLM + 基础设施

AI Agent 的核心公式很简单：在大语言模型的智能之上，叠加一层「基础设施」（也叫 Harness），让它能够感知环境、使用工具、采取行动。下一章我们就来详细了解这个「基础设施」到底是什么。

🧠 检验理解

以下哪个描述最准确地区分了 LLM 和 AI Agent？

🧠 检验理解

当你对 AI Agent 说「帮我在 config.json 里添加一个字段」，Agent 会怎么做？

什么是 Harness