⚠️ 更新说明:本文已根据权威资料更新,部分内容来自维基百科、IBM、AWS、Microsoft Azure 等官方文档。
在 AI 时代,这些概念你是否经常听到但又似懂非懂?这篇文章帮你一次性搞懂!
1. LLM(大语言模型)
是什么?
LLM = Large Language Model,即大语言模型。简单来说,它是一个经过海量文本训练的超大神经网络,能够理解和生成人类语言。
你可以把它想象成一个读过了互联网几乎所有文章的人,它学会了语言的模式,能够回答问题、写作文、写代码、翻译等。
作用
- 对话问答:回答各种问题
- 文本生成:写文章、写邮件、写代码
- 翻译:多语言互译
- 总结:把长文章浓缩成短摘要
- 代码补全:帮你写代码、debug
著名 LLM
| 模型 | 开发者 | 特点 |
|---|---|---|
| GPT-4 / o1 | OpenAI | 最强综合能力,多模态 |
| Claude 4 | Anthropic | 长文本处理强,安全 |
| Gemini | 多模态原生 | |
| MiniMax | 中国 | 中文优化 |
| DeepSeek | 中国 | 开源、性能强 |
一个重要概念:Token
LLM 处理文本的基本单位叫 Token。简单理解:
- 1 个 Token ≈ 0.5 ~ 1 个中文字
- ≈ 1~2 个英文单词
为什么关注 Token?
因为 LLM 是按 Token 收费的!你发送的 Prompt 和收到的回复,都会消耗 Token。
2. Prompt(提示词)
是什么?
Prompt 就是你发给 LLM 的指令或问题。
你可以把它理解为对 AI 说话的方式。同样一个问题,用不同的 Prompt 问,得到的答案质量可能天差地别。
参考来源:提示工程指南、OpenAI 提示词最佳实践
作用
Prompt 决定了 AI 理解你的意图和输出什么内容。
好的 Prompt 怎么写?
一个好的 Prompt 通常包含:
| 要素 | 说明 | 示例 |
|---|---|---|
| 角色 | 让 AI 扮演什么角色 | “你是一位专业的营养师” |
| 任务 | 要完成什么 | “帮我写一份健康饮食计划” |
| 背景 | 补充相关信息 | “我身高 175cm,体重 70kg” |
| 格式 | 要求输出格式 | “用表格形式呈现” |
| 限制 | 有什么约束 | “不要超过 500 字” |
经典 Prompt 框架
你是 [角色]
需要完成 [任务]
背景信息:[背景]
要求:[格式/限制]
常见 Prompt 技巧
- Few-shot:给几个例子,让 AI 模仿
- Chain-of-Thought:让 AI 展示思考过程
- Role-playing:设定角色获得更好专业回答
3. Context(上下文)
是什么?
Context 就是对话的上下文,包括之前聊过的内容、历史消息等。
LLM 本身是无状态的——每次请求都是独立的。但通过把历史消息放进 Prompt,AI 就能”记住”之前聊了什么。
作用
- 让多轮对话连贯
- 让 AI 记住你的偏好
- 实现”连续任务”(如长文写作)
一个关键指标:上下文窗口
上下文窗口(Context Window)是指 LLM 一次能处理的 Token 数量。
| 模型 | 上下文窗口 |
|---|---|
| GPT-4 | 128K Token(约 10 万汉字) |
| Claude 4 | 200K Token |
| Gemini | 200万 Token |
| DeepSeek | 64K - 128K Token |
超出这个长度怎么办?通常会截断或摘要前面的内容。
4. Agent(智能体)
是什么?
Agent = 智能体,是一个能够自主思考、规划并执行任务的 AI 系统。
如果说 LLM 是一个”大脑”,那 Agent 就是大脑 + 手 + 工具的组合。
参考来源:IBM - 什么是 AI agent、腾讯云 - 什么是AI Agent、Gartner - AI Agents
Agent 的核心能力
一个真正的 Agent 通常具备:
| 能力 | 说明 |
|---|---|
| 感知 | 理解输入(文本、图像、声音) |
| 思考 | 分析问题、制定计划 |
| 规划 | 把复杂任务拆成步骤 |
| 行动 | 调用工具、执行操作 |
| 反思 | 检查结果、调整策略 |
2025 年 Agent 趋势
根据 斯坦福 2024 AI 指数报告 和 Gartner 预测:
- 智能体技术正从简单动作转向多智能体复杂工作流
- Agentic AI 被列为 2025 年首要战略技术
- 企业软件中整合 AI Agent 的比例将大幅上升
LLM vs Agent
| LLM | Agent | |
|---|---|---|
| 本质 | 语言模型 | 系统 |
| 行动 | 只能输出文字 | 可以执行操作 |
| 自主性 | 低(你问我答) | 高(自主规划) |
| 工具使用 | 不会 | 会调用工具 |
Agent 用来干什么?
- 自动化工作流:自动处理邮件、生成报告
- 编程助手:帮你写代码、调试
- 数据分析:自动分析数据、画图表
- 个人助理:帮你管理日程、订机票
5. Tool(工具)
是什么?
Tool 是 Agent 可以调用的外部能力。
LLM 本身只会”说话”,但通过 Tool,它可以:
- 联网搜索
- 读写文件
- 执行代码
- 调用 API
- 操作浏览器
常见的 Tool
| 工具 | 功能 |
|---|---|
| 搜索 | 联网查资料(如 SearXNG) |
| 计算器 | 数学计算 |
| 代码执行 | 运行 Python、JS 等 |
| 浏览器 | 操控网页 |
| 文件读写 | 读取/写入本地文件 |
| 日历 | 查日程、写日程 |
| 邮件 | 发送/接收邮件 |
Tool 怎么工作?
用户 → Agent → [判断需要什么工具] → 调用 Tool → 返回结果 → Agent 整理回答
6. Workflow(工作流)
是什么?
Workflow = 工作流,是把多个步骤有序组织起来的自动化流程。
如果说 Agent 是一个”全自动司机”,Workflow 更像是设计好的路线图——每一步该做什么都已规划好。
Workflow 的组成
[输入] → [步骤1: 提取信息] → [步骤2: 调用API] → [步骤3: 整理输出] → [结果]
Agent vs Workflow
| Agent | Workflow | |
|---|---|---|
| 灵活性 | 高(自主决策) | 低(固定流程) |
| 复杂度 | 适合复杂/模糊任务 | 适合清晰/重复任务 |
| 成本 | 较高(需要推理) | 较低(确定性执行) |
实际例子
Workflow 场景:
用户提交表单 → 自动发确认邮件 → 存入数据库 → 通知管理员
Agent 场景:
“帮我分析这个月销售额下降的原因” → Agent 自动分析数据、查资料、给建议
7. RAG(检索增强生成)
是什么?
RAG = Retrieval-Augmented Generation,即检索增强生成。
它的核心思想是:
让 LLM 在回答问题时,先检索相关资料,再基于资料生成答案。
为什么需要 RAG?
LLM 的两大局限:
- 知识截止:训练数据有截止日期,不知道最新信息
- 幻觉:可能编造不存在的信息
RAG 通过让 AI 查阅参考资料来解决这些问题。
RAG 工作原理
用户问题 → [检索器] → 从知识库找相关资料 → [把资料 + 问题发给 LLM] → 生成答案
RAG 高级方法
- Parent Document Retrieval:先检索小块,如果多个小块指向同一父节点,则用父节点作为上下文
- Hybrid Search:结合关键词搜索和向量搜索
- Reranking:对检索结果重新排序,提高相关性
RAG 用来干什么?
- 企业知识库:员工问公司政策,AI 从文档中检索
- 客服系统:从产品手册中找答案
- 个人知识管理:让 AI 读你的笔记、论文
- 法律/医疗:基于权威文档提供准确信息
8. Embedding(向量)
是什么?
Embedding = 向量嵌入,是把文字、图片、声音等转换成**一组数字(向量)**的技术。
关键是:意思相近的内容,向量也相近。
举个例子
- “狗” → [0.1, 0.8, 0.3, …]
- “猫” → [0.12, 0.75, 0.35, …] ← 和”狗”很接近
- “汽车” → [0.9, 0.1, 0.2, …] ← 和”狗”距离很远
Embedding 用来干什么?
| 应用 | 说明 |
|---|---|
| 相似文章推荐 | 找到内容相似的文章 |
| 语义搜索 | 搜索”水果”,不仅能找到”苹果”,还能找到”香蕉” |
| RAG | 把文档转成向量,存入向量数据库 |
| 聚类分析 | 把相似的文本自动分组 |
向量数据库
存储向量的地方叫向量数据库,常见的有:
- Milvus
- Pinecone
- Qdrant
- FAISS
9. 总结:它们之间的关系
┌─────────────────────────────────────────────────┐
│ 用户 │
└─────────────────┬───────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ Prompt(提示词) │
│ "帮我分析这份报告,给出建议" │
└─────────────────┬───────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ Context(上下文) │
│ + 历史对话 + 检索到的资料 │
└─────────────────┬───────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ Agent(智能体) │
│ ┌─────────────────────────────────────────┐ │
│ │ 思考 → 规划 → 调用 Tool → 执行 → 反思 │ │
│ └─────────────────────────────────────────┘ │
│ │ │
│ ┌────────┴────────┐ │
│ ▼ ▼ │
│ ┌───────────┐ ┌───────────┐ │
│ │ Workflow │ │ RAG │ │
│ │ (工作流) │ │(检索增强) │ │
│ └───────────┘ └─────┬─────┘ │
│ │ │
│ ┌──────┴──────┐ │
│ ▼ ▼ │
│ ┌──────────┐ ┌──────────┐ │
│ │Embedding │ │ 搜索/ │ │
│ │ (向量) │ │ 计算器 │ │
│ └──────────┘ └──────────┘ │
└─────────────────┬───────────────────────────────┘
│
▼
┌─────────────────────────────────────────────────┐
│ LLM(大语言模型) │
│ 输入 Prompt → 输出回答 │
│ (消耗 Token) │
└─────────────────────────────────────────────────┘
10. 快速对比表
| 概念 | 简单理解 | 类比 |
|---|---|---|
| LLM | 能说会写的 AI 大脑 | 图书馆(知识丰富) |
| Prompt | 给 AI 的指令 | 提问方式 |
| Context | 对话历史/背景 | 聊天记录 |
| Agent | 会思考会行动的 AI | 秘书(帮你干活) |
| Tool | AI 能调用的技能 | 工具箱 |
| Workflow | 规划好的步骤 | 流程图 |
| RAG | 查资料再回答 | 开卷考试 |
| Embedding | 把文字变成数字 | 书的索引 |
11. 实际应用场景
场景 1:智能客服
用户问 → Agent 接收 → RAG 检索产品文档 → LLM 生成回答 → 返回给用户
场景 2:编程助手
用户说"帮我写个排序算法" → Agent 理解需求 → Tool 执行代码 → 返回结果
场景 3:知识管理
你问"去年那个项目的方案是什么"
→ Embedding 把问题转成向量
→ 向量数据库搜索相似内容
→ RAG 把找到的文档给 LLM
→ 生成答案
希望这篇文章能帮你搞懂这些概念!有问题欢迎评论区交流 🐨
参考来源: