1

什么是 AI Agent

从「只会说话」到「能做事」

大语言模型 vs AI Agent

你可能已经用过 ChatGPT、Claude 这样的 AI 工具。它们背后的核心是「大语言模型」(Large Language Model,简称 LLM)。 LLM 非常聪明,能理解你的问题,能写文章、写代码、分析数据。但它有一个根本的局限:它只能「说」,不能「做」。 比如你问 LLM:「帮我把这个文件的第 10 行改成 hello」,LLM 能告诉你应该怎么改,但它无法真正打开文件、修改内容、保存文件。 AI Agent 就是为了解决这个问题而存在的。它在 LLM 的基础上,加上了一套「基础设施」,让 AI 真正能够: • 读写文件 • 执行命令 • 搜索信息 • 与外部工具交互 • 协调多个子任务
对比项普通 LLMAI Agent
核心能力理解和生成文本理解、决策、执行
能否操作文件❌ 不能✅ 可以
能否运行代码❌ 不能✅ 可以
能否搜索网页❌ 不能✅ 可以
工作方式一问一答循环:思考 → 行动 → 观察 → 再思考
比喻一个聪明的大脑一个有手有脚的聪明人

为什么 AI Agent 如此重要?

想象一下这个场景: 你对 AI 说:「帮我创建一个新的 React 项目,安装依赖,写一个登录页面,然后运行测试。」 如果是普通 LLM,它只能给你一步步的文字指导。 但如果是 AI Agent,它会真正地: 1. 执行 npx create-react-app 创建项目 2. 运行 npm install 安装依赖 3. 创建文件、写入代码 4. 运行 npm test 检查结果 5. 如果测试失败,自动修复并重试 这就是 AI Agent 的威力 —— 它不只是给建议,而是真正完成任务。
📌 关键要点
AI Agent = LLM + 基础设施
AI Agent 的核心公式很简单:在大语言模型的智能之上,叠加一层「基础设施」(也叫 Harness),让它能够感知环境、使用工具、采取行动。下一章我们就来详细了解这个「基础设施」到底是什么。
🧠 检验理解
以下哪个描述最准确地区分了 LLM 和 AI Agent?
🧠 检验理解
当你对 AI Agent 说「帮我在 config.json 里添加一个字段」,Agent 会怎么做?