创业公司应不应该押注 Agent 化

张开发
2026/4/12 2:25:18 15 分钟阅读

分享文章

创业公司应不应该押注 Agent 化
创业公司应不应该押注 Agent 化从0到1的范式破局与陷阱规避全指南关键词Agent 化、自主智能体、创业技术选型、LLM Agent 框架、产品化路径、风险管控、垂直领域落地摘要2024年被业界普遍定义为「LLM Agent 元年下半场」——当通用大模型LLM的能力曲线进入平台期的平稳增长段以「感知-决策-行动-反思」闭环为核心的自主智能体Agent成为了破局通用AI与垂直价值落地鸿沟的核心载体。但对于资源禀赋有限、决策容错率极低、技术-产品-市场联动必须高度精准的创业公司而言「是否要押注 Agent 化」绝非一句简单的「Yes/No」或「分赛道分阶段」就能回答的问题它不仅涉及对技术趋势的判断更关乎对创业DNA、产品定位、市场环境、资金链、团队能力等一系列生死要素的系统性权衡。本文将以「一步步思考」的逻辑贯穿始终先从Agent的「底层哲学与定义乱象」切入澄清当前行业对Agent化的普遍误解再通过「核心能力模型与行业案例的对照分析」提炼出「Agent化真正能创造价值的场景特征」与「不适合盲目入场的陷阱」接着用「垂直领域创业的产品化-技术化-商业化三阶段路径」给出「如何从最小可行AgentMVA切入验证价值再逐步迭代到复杂自主系统」的实操方案最后结合「未来3-5年的技术发展趋势」与「资金链、团队、数据等创业核心壁垒的构建策略」为不同赛道、不同阶段的创业公司提供「分阶段押注策略矩阵」。全文将包含3个垂直领域的MVA完整代码示例PythonLangGraph/CrewAI/Coze、4个行业头部与腰部创业公司的深度案例分析、2套自主构建的Agent化价值评估模型与风险管控框架、1个垂直领域Agent产品的全链路架构设计与接口文档目标读者是「对AI落地有初步认知但缺乏系统方法论」的创始人、技术负责人与产品经理。1. 背景介绍为什么Agent化突然成了创业的「显学」又成了「众说纷纭的双刃剑」1.1 核心概念前置锚定避免定义混乱1.1.1 什么是Agent化在正式讨论「创业公司应不应该押注Agent化」之前我们必须先彻底澄清当前行业对「Agent」与「Agent化」的定义乱象——这也是很多创业公司盲目踩坑的第一步哲学与计算机科学的经典定义溯源从1956年图灵测试后的探索到2023年OpenAI DevDay GPT-4o的「行动化」发布会图灵机时代的Agent雏形冯·诺依曼架构的计算机本质上是「被动工具」——只能执行人类预先编写的「确定性指令」不具备「自主目标设定」与「环境适应能力」而图灵在1950年《计算机器与智能》的最后一节「机器能够思考吗」中隐含了对「具有自主感知、决策、学习能力的机器」的定义这被学术界视为Agent的雏形。软件工程时代的狭义Agent1995年著名AI学者Michael Wooldridge与Nicholas R. Jennings在《智能Agent理论与实践》一书中给出了计算机科学领域第一个被广泛接受的狭义智能Agent定义「智能Agent是一个处于某一环境中的计算机系统该系统能够在该环境中自主行动以实现其设定的目标」同时他们提出了Agent的「4大经典属性」自治性Autonomy无需人类或其他系统的持续干预就能独立执行大部分任务反应性Reactivity能够实时感知环境的变化比如用户输入、API返回结果、传感器数据等并在短时间内做出响应主动性Proactivity不仅能被动响应环境还能主动设定长期/短期子目标并制定计划去实现社交性Sociality能够与其他Agent或人类通过某种协议比如自然语言、API契约、智能合约等进行交互与协作。LLM时代的广义Agent也被称为「LLM Agent」「自主智能体」随着2022年底ChatGPT的爆发通用大模型LLM在「自然语言理解NLU」「自然语言生成NLG」「常识推理Common Sense Reasoning」「多模态理解与生成Multimodal」等领域取得了突破式进展——这为「解决狭义Agent的「知识获取瓶颈」「推理通用性瓶颈」「社交自然性瓶颈」」提供了核心基础设施。因此当前业界讨论的「Agent化」本质上是**「以通用大模型为核心大脑以工具调用、记忆管理、反思机制为支撑模块构建具有『4大经典属性大模型专属属性』的自主智能系统并将其应用到具体的产品/业务场景中」的过程**。1.1.2 澄清3个常见的「Agent化误解」创业踩坑的高频区为了避免大家对「Agent化」产生「万能药」或「伪命题」的极端看法我们必须先澄清3个最常见的误解误解1「只要用了大模型工具调用就是Agent化」很多创业公司的技术负责人看到OpenAI的Function Calling、LangChain的AgentExecutor、CrewAI的Agent就觉得「我也能做Agent化产品」——但实际上「工具调用只是Agent的支撑模块之一绝非核心」。按照Michael Wooldridge的定义没有「自主目标设定」「环境适应的反思机制」「长期子目标拆解的规划能力」的系统充其量只是「大模型驱动的自动化工具」比如AutoGPT在刚发布时的很多测试案例本质上只是「把简单的指令拆解成若干个工具调用然后按顺序执行」不具备真正的「反思与调整」能力。举个生活化的例子大模型驱动的自动化工具就像「只会按你写的『买菜清单』买菜的机器人」——清单上写了「买1斤西红柿、2斤鸡蛋、3根黄瓜」它就会严格按顺序去买如果菜市场今天没有黄瓜它只会回来告诉你「黄瓜卖完了」不会主动问你「要不要换成丝瓜或者要不要少买1斤西红柿多买1斤鸡蛋」更不会主动调整你的买菜计划比如今天你本来要做西红柿炒鸡蛋、拍黄瓜如果黄瓜卖完了它不会主动改成做西红柿鸡蛋面、煎蛋。真正的广义Agent就像「你的私人生活助理」——你只需要告诉它「今晚6点我要请3个同事来家里吃饭预算200块钱他们不吃辣喜欢吃清淡的家常菜」它就会自主设定长期目标与短期子目标长期目标是「请同事吃一顿满意的、不超预算的清淡家常菜」短期子目标是「a. 查一下同事的口味偏好细节比如有没有过敏的食物b. 制定3-4个符合要求的菜单方案并计算预算c. 把菜单方案发给你确认d. 根据确认后的方案生成买菜清单e. 查一下附近菜市场的营业时间与价格f. 去菜市场买菜如果遇到缺货会主动调整菜单或食材并同步给你g. 回来后帮你准备食材如果需要的话」。自主感知环境变化比如查同事的口味时发现「小王对海鲜过敏」「小李喜欢吃蒸蛋羹」查菜市场价格时发现「今天鸡蛋涨价了50%」「今天鲈鱼打5折虽然同事不吃辣但清蒸鲈鱼是清淡的而且预算足够」去菜市场时发现「卖黄瓜的摊位关了」。自主反思与调整计划比如发现「今天鸡蛋涨价了50%」它会反思「原来的菜单方案里有2个炒鸡蛋、1个蒸蛋羹鸡蛋用量太多会不会超预算」然后调整方案「把其中1个炒鸡蛋换成『蒜蓉西兰花』这样既减少了鸡蛋用量又满足了清淡的要求」比如发现「黄瓜卖完了」它会反思「原来的拍黄瓜要不要换成别的菜」然后查一下「附近有没有超市卖黄瓜」「如果没有的话有没有别的替代食材比如丝瓜、冬瓜」再同步给你确认。自主与人类/其他Agent交互比如查同事的口味时会给同事发微信把菜单方案发给你确认时会附上预算计算遇到缺货时会主动给你打电话如果需要的话还会和「外卖配送Agent」「家政清洁Agent」协作比如提前叫家政清洁Agent来打扫客厅或者如果自己买菜来不及的话叫外卖配送Agent送一部分食材。误解2「Agent化只适合做『To C的聊天机器人』或『To B的自动化客服』」很多创业公司看到目前市场上的主流Agent产品比如AutoGPT、GitHub Copilot X、字节跳动的豆包Mars、阿里的通义千问Agent都是「聊天界面自动化任务」就觉得「Agent化只适合做To C的聊天机器人或To B的自动化客服」——但实际上「Agent化的应用场景非常广泛几乎覆盖了所有『需要人类进行感知-决策-行动-反思闭环』的领域」To C领域除了聊天机器人和私人助理还可以做「个性化学习Agent」比如根据学生的学习进度、知识点掌握情况、学习习惯自主制定学习计划、选择学习内容、生成练习题、批改作业、反思调整教学方法、「个性化健康管理Agent」比如根据用户的体检报告、运动数据、饮食记录、睡眠数据自主制定健康计划、推荐运动方案、推荐饮食方案、提醒吃药/运动/睡觉、反思调整健康计划、「个性化内容创作Agent」比如根据用户的内容风格偏好、内容主题要求、发布平台规则自主收集素材、制定内容大纲、生成初稿、修改润色、排版发布、分析阅读数据、反思调整内容策略。To B领域除了自动化客服还可以做「企业内部运营Agent」比如自主处理报销流程、考勤流程、采购流程、会议组织流程、邮件管理流程、「销售Agent」比如自主收集潜在客户信息、分析客户需求、制定销售方案、跟进客户、促成交易、维护客户关系、反思调整销售策略、「产品研发Agent」比如自主收集用户反馈、分析用户需求、制定产品迭代计划、编写产品需求文档PRD、生成测试用例、执行自动化测试、分析测试结果、反思调整研发流程、「财务审计Agent」比如自主收集财务数据、检查财务报表的合规性、发现财务风险、生成审计报告、反思调整审计流程、「工业控制Agent」比如自主感知工业设备的运行状态、分析设备故障原因、制定维修计划、控制设备运行参数、反思调整控制策略。To G领域还可以做「政务服务Agent」比如自主处理市民的社保、医保、公积金、居住证等业务申请自主回答市民的政务咨询自主跟进市民的投诉建议、「城市管理Agent」比如自主感知城市的交通状态、环境状态、安全状态自主制定交通管制方案、环境治理方案、安全应急预案控制交通信号灯、环境监测设备、安全监控设备反思调整管理策略。误解3「Agent化是万能的可以替代所有人类工作」很多媒体在报道Agent化时都会用「未来5年AI Agent将替代80%的人类工作」「通用AI Agent即将实现人类将迎来『失业潮』」这样的标题——但实际上「Agent化不是万能的它只能替代『标准化、重复性、低创造性、低情感需求』的人类工作对于『非标准化、高创造性、高情感需求、高伦理要求』的人类工作Agent化目前还无法替代甚至未来5-10年也很难替代」可以被Agent化替代的工作比如数据录入员、客服专员、电话销售员、文案专员撰写标准化文案比如产品说明书、新闻通稿、营销邮件、初级会计处理标准化的财务数据比如记账、报税、生成简单的财务报表、初级程序员编写标准化的代码比如CRUD操作、API接口封装、初级设计师制作标准化的设计比如名片、海报、PPT模板。目前无法被Agent化替代的工作比如CEO、CTO、产品经理制定产品战略、发现非显性的用户需求、进行产品创新、高级程序员进行系统架构设计、解决复杂的技术问题、编写具有创造性的代码、高级设计师进行品牌设计、艺术创作、解决复杂的设计问题、医生进行疑难杂症的诊断、制定个性化的治疗方案、与患者进行情感沟通、教师进行个性化的教育、激发学生的学习兴趣、培养学生的价值观、律师进行复杂的法律诉讼、制定个性化的法律方案、与法官/对方律师进行辩论、心理咨询师与来访者进行情感沟通、发现来访者的心理问题根源、制定个性化的心理咨询方案。1.2 问题背景从「大模型红利期」到「Agent落地攻坚期」的创业环境变化1.2.1 第一阶段2022年底-2023年中——「大模型红利期」「有大模型就能拿到融资」2022年11月30日OpenAI发布ChatGPT——这一事件被业界视为「通用AI时代的开端」。在接下来的半年里通用大模型的能力曲线呈现「爆发式增长」2023年3月14日OpenAI发布GPT-4——在多模态理解、常识推理、复杂问题解决等领域的能力相比GPT-3.5提升了数倍2023年3月23日OpenAI发布ChatGPT Plugins与Function Calling——大模型首次具备了「与外部世界交互」的能力2023年4月百度发布文心一言、阿里发布通义千问、腾讯发布混元大模型、字节跳动发布豆包大模型——国内通用大模型市场迎来「百模大战」2023年5月Anthropic发布Claude 2——在长文本理解、上下文记忆、安全性等领域的能力相比GPT-4有一定优势。在这个阶段「创业公司只要能拿到大模型的API接口或者能微调一个小参数的垂直大模型就能拿到融资」——据清科创业研究院的数据显示2023年Q1-Q2国内AI领域的融资事件数达到了287起融资金额达到了324.5亿元人民币其中「大模型相关创业公司」的融资事件数占比达到了42%融资金额占比达到了68%。但这个阶段的「大模型创业」存在一个致命的问题「几乎所有的大模型创业公司都在做『同质化的产品』——要么是『通用聊天机器人』要么是『微调后的垂直大模型API接口』要么是『基于大模型的简单工具比如PPT生成器、文案生成器、代码生成器』」——这些产品的「技术壁垒极低」「差异化程度极低」「用户留存率极低」据第三方数据显示2023年Q2国内通用聊天机器人的月活用户数相比Q1下降了约60%用户次日留存率不足10%。因此到了2023年下半年「大模型红利期」迅速结束——很多「同质化的大模型创业公司」要么倒闭要么转型。1.2.2 第二阶段2023年中-2024年中——「Agent落地攻坚期」「有落地案例的Agent创业公司才能拿到融资」随着「大模型红利期」的结束投资人和创业者都意识到「通用大模型只是『基础设施』只有将其应用到具体的产品/业务场景中创造『真实的、可量化的商业价值』才能生存下去」——而「以感知-决策-行动-反思闭环为核心的自主智能体Agent」正好是「破局通用AI与垂直价值落地鸿沟的核心载体」。因此从2023年下半年开始「Agent化」突然成了创业的「显学」学术领域2023年下半年-2024年中顶级AI会议比如NeurIPS、ICML、CVPR、ACL上发表的「Agent相关论文」数量呈现「爆发式增长」——据OpenReview的数据显示2024年NeurIPS的「Agent相关论文」投稿数达到了3200篇相比2023年增长了约5倍技术框架领域2023年下半年-2024年中「LLM Agent框架」迎来了「百花齐放」的局面——除了最早的LangChain AgentExecutor之外还出现了LangGraph更适合构建复杂的、具有状态管理的多Agent系统、CrewAI更适合构建「角色分工明确的协作式多Agent系统」、AutoGen微软推出的更适合构建「人机协作的多Agent系统」、Coze字节跳动推出的零代码/低代码的Agent构建平台、Dify国内推出的零代码/低代码的Agent构建平台、LlamaIndex更适合构建「基于RAG的知识增强Agent」创业公司领域2023年下半年-2024年中「Agent相关创业公司」的数量呈现「爆发式增长」——据清科创业研究院的数据显示2023年Q3-Q4国内AI领域的融资事件数达到了256起融资金额达到了287.2亿元人民币其中「Agent相关创业公司」的融资事件数占比达到了35%融资金额占比达到了52%2024年Q1-Q2国内AI领域的融资事件数达到了221起融资金额达到了245.8亿元人民币其中「Agent相关创业公司」的融资事件数占比进一步提升到了41%融资金额占比进一步提升到了59%头部企业领域2023年下半年-2024年中几乎所有的头部科技企业都在「押注Agent化」OpenAI2023年11月6日的DevDay上发布了GPT-4 Turbo、Assistants API、GPTs——其中Assistants API是OpenAI推出的「官方Agent构建平台」GPTs是「用户可以零代码/低代码构建的个性化Agent」2024年5月14日的Spring Update上发布了GPT-4o、GPT-4o mini——其中GPT-4o是「多模态、实时交互的通用Agent大脑」具备「实时语音/视频通话」「实时环境感知」「实时工具调用」等能力微软2023年9月21日的Surface Event上发布了Copilot Studio——用户可以零代码/低代码构建「企业级的协作式多Agent系统」2024年3月21日的Build大会上发布了AutoGen Studio——进一步降低了「人机协作的多Agent系统」的构建门槛字节跳动2023年10月11日发布了Coze——零代码/低代码的Agent构建平台目前已经有超过1000万的用户构建了超过5000万个Agent2024年4月15日发布了豆包Mars——「企业级的协作式多Agent平台」阿里2023年10月31日的云栖大会上发布了通义千问Agent平台——用户可以零代码/低代码构建「企业级的Agent」2024年4月26日的云峰会上发布了通义千问3.0——「多模态、实时交互的通用Agent大脑」腾讯2023年12月15日的腾讯数字生态大会上发布了混元Agent平台——用户可以零代码/低代码构建「企业级的Agent」2024年5月21日的腾讯云未来峰会上发布了混元3.0——「多模态、实时交互的通用Agent大脑」。但这个阶段的「Agent化创业」也存在一个很大的问题「虽然很多创业公司都在做Agent化产品但真正能创造『真实的、可量化的商业价值』的案例非常少」——据清科创业研究院的数据显示2023年Q3-2024年Q2国内「Agent相关创业公司」中只有约12%的公司实现了「正向现金流」只有约5%的公司实现了「规模化盈利」。因此到了2024年下半年投资人和创业者都开始「冷静下来」——「是否要押注Agent化」不再是一句简单的「Yes/No」而是需要「系统性地权衡创业DNA、产品定位、市场环境、资金链、团队能力等一系列生死要素」。1.3 目标读者谁需要读这篇文章本文的目标读者是**「对AI落地有初步认知但缺乏系统方法论」的三类人群**AI领域/垂直领域的创业公司创始人帮你「系统性地判断自己的公司是否适合押注Agent化」「如何制定分阶段的押注策略」「如何构建Agent化的核心壁垒」AI领域/垂直领域的创业公司技术负责人帮你「系统性地理解Agent化的技术原理」「如何选择适合自己公司的Agent框架」「如何构建最小可行AgentMVA」「如何迭代到复杂自主系统」AI领域/垂直领域的创业公司产品经理帮你「系统性地理解Agent化的产品化逻辑」「如何找到适合Agent化的场景」「如何设计Agent化的产品体验」「如何验证Agent化的产品价值」。1.4 核心问题我们需要一步步回答哪些问题才能判断「创业公司应不应该押注Agent化」在正式讨论「创业公司应不应该押注Agent化」之前我们必须先拆解出这个问题背后的一系列子问题——只有一步步回答这些子问题我们才能得到一个「客观、准确、适合自己公司」的答案「什么是真正的Agent化它和之前的『自动化工具』『大模型工具』有什么本质区别」我们已经在1.1节初步澄清了但在2.1节会进一步深入解析「Agent化的核心能力模型是什么它能为产品/业务带来哪些核心价值」我们会在2.2节详细讨论「哪些场景适合Agent化哪些场景不适合盲目入场」我们会在2.3节结合「核心能力模型」与「行业案例」提炼出「场景特征矩阵」「不同赛道、不同阶段的创业公司应该选择什么样的Agent化路径」我们会在3.1节结合「创业DNA」「产品定位」「市场环境」给出「分阶段押注策略矩阵」「如何构建最小可行AgentMVA来验证Agent化的产品价值」我们会在3.2节结合「3个垂直领域的MVA完整代码示例」给出「全链路的实操方案」「如何从MVA迭代到复杂自主系统」我们会在3.3节结合「1个垂直领域Agent产品的全链路架构设计与接口文档」给出「迭代路径」「Agent化创业有哪些常见的风险如何规避这些风险」我们会在4.1节结合「行业案例」给出「风险管控框架」「如何构建Agent化的核心壁垒」我们会在4.2节结合「行业案例」给出「核心壁垒构建策略」「未来3-5年Agent化的技术发展趋势是什么它会对创业公司产生哪些影响」我们会在5.1节详细讨论「创业公司应该如何应对未来的技术发展趋势」我们会在5.2节给出「应对策略」。2. 核心概念解析从「底层哲学」到「技术架构」彻底理解Agent化的本质2.1 核心概念再次锚定深入本质2.1.1 从「工具哲学」到「Agent哲学」Agent化的底层逻辑是什么要彻底理解Agent化的本质我们必须先从「哲学层面」理解「工具」与「Agent」的区别——这也是很多创业公司技术负责人容易忽略的地方但却是「决定Agent化产品能否成功」的核心因素之一。「工具哲学」的核心假设在「工具哲学」的框架下「人类是主体工具是客体」——工具的作用是「延伸人类的能力」但工具的「所有行为都必须由人类发起所有决策都必须由人类做出」。比如锤子是「延伸人类手臂力量」的工具——你必须「用手握住锤子」「主动挥锤」才能钉钉子计算机是「延伸人类计算能力、存储能力、信息处理能力」的工具——你必须「输入指令」才能让计算机执行任务大模型工具比如PPT生成器、文案生成器、代码生成器是「延伸人类内容创作能力、代码编写能力」的工具——你必须「输入明确的需求比如『生成一份关于2024年AI Agent市场趋势的PPT共10页』」才能让大模型工具生成内容。「工具哲学」的核心假设是「人类能够明确地描述自己的需求并且能够制定明确的、可执行的计划来实现自己的需求」——但在现实生活中这个假设往往不成立很多时候人类「无法明确地描述自己的需求」——比如你想「请同事吃一顿满意的饭」但你不知道「同事的口味偏好细节」「附近菜市场的价格」「怎么制定符合要求的菜单方案」很多时候人类「无法制定明确的、可执行的计划」——比如你想「成为一名优秀的产品经理」但你不知道「需要学习哪些知识」「需要积累哪些经验」「需要制定什么样的学习计划」很多时候人类「制定的计划会因为环境的变化而失效」——比如你本来想「今天开车去上班」但出门后发现「路上堵车了」你需要「调整计划比如坐地铁去上班」。「Agent哲学」的核心假设在「Agent哲学」的框架下「人类是『合作伙伴』或『监督者』Agent是『具有一定自主能力的主体』」——Agent的作用不仅是「延伸人类的能力」更是「帮助人类『明确自己的需求』『制定计划』『执行计划』『反思调整计划』」。比如私人生活助理Agent是「你的合作伙伴」——你只需要告诉它「今晚6点我要请3个同事来家里吃饭」它就会帮你「明确需求细节」「制定计划」「执行计划」「反思调整计划」个性化学习Agent是「你的合作伙伴」——你只需要告诉它「我想在3个月内通过Python二级考试」它就会帮你「明确需求细节比如你的基础水平、学习时间、学习习惯」「制定学习计划」「执行学习计划比如推荐学习内容、生成练习题、批改作业」「反思调整学习计划比如根据你的学习进度调整学习内容的难度」企业销售Agent是「你的合作伙伴」——你只需要告诉它「我想在这个季度内把销售额提升20%」它就会帮你「明确需求细节比如你的目标客户群体、竞争对手情况、产品优势」「制定销售计划」「执行销售计划比如收集潜在客户信息、分析客户需求、制定销售方案、跟进客户」「反思调整销售计划比如根据客户的反馈调整销售方案」。「Agent哲学」的核心假设是「人类虽然无法明确地描述自己的需求、无法制定明确的、可执行的计划、无法应对所有的环境变化但人类能够『设定长期的、模糊的目标』并且能够『对Agent的行为进行监督和反馈』」——这个假设在现实生活中往往成立因为这正是「人类的核心优势」之一人类具有「抽象思维能力」「价值观判断能力」「情感理解能力」能够设定「长期的、模糊的、有意义的目标」而Agent则具有「强大的计算能力」「存储能力」「信息处理能力」「工具调用能力」能够帮助人类「明确需求细节」「制定计划」「执行计划」「反思调整计划」。2.1.2 从「4大经典属性」到「大模型专属属性」完整的Agent能力模型是什么在1.1.1节我们已经介绍了Michael Wooldridge与Nicholas R. Jennings提出的「Agent的4大经典属性」——但在LLM时代广义AgentLLM Agent还具有「大模型专属属性」。因此完整的LLM Agent能力模型应该包括「4大经典属性」「5大LLM专属属性」经典属性必选没有这些属性就不是真正的Agent自治性Autonomy无需人类或其他系统的持续干预就能独立执行大部分任务——比如私人生活助理Agent不需要你持续提醒它「查同事的口味」「制定菜单方案」「去菜市场买菜」它会自主按顺序执行这些任务反应性Reactivity能够实时感知环境的变化比如用户输入、API返回结果、传感器数据、数据库更新等并在短时间内做出响应——比如私人生活助理Agent发现「菜市场今天没有黄瓜」会在1分钟内给你打电话同步情况主动性Proactivity不仅能被动响应环境还能主动设定长期/短期子目标并制定计划去实现——比如私人生活助理Agent不会等你问「同事的口味偏好是什么」而是会主动给同事发微信询问社交性Sociality能够与其他Agent或人类通过某种协议比如自然语言、API契约、智能合约、Coze的Bot插件协议等进行交互与协作——比如私人生活助理Agent会和你、同事、外卖配送Agent、家政清洁Agent进行交互与协作。LLM专属属性可选但这些属性是LLM Agent与狭义Agent的本质区别也是LLM Agent能创造核心价值的关键自然语言理解与生成NLUNLG能力能够理解人类的自然语言输入包括模糊的、口语化的、多模态的输入并能够生成自然流畅的、符合语境的、有针对性的自然语言输出——这是LLM Agent能够「与人类进行自然交互」的核心能力常识推理与逻辑推理能力能够运用「世界常识」比如「天空是蓝色的」「水在100℃会沸腾」「人需要吃饭才能生存」与「逻辑推理规则」比如演绎推理、归纳推理、类比推理解决复杂的问题——这是LLM Agent能够「明确需求细节」「制定计划」「反思调整计划」的核心能力长文本理解与上下文记忆能力能够理解「长文本」比如100万字的小说、1000页的产品文档、10000条用户反馈并能够「记住」之前的对话历史、任务执行历史、环境感知历史——这是LLM Agent能够「处理复杂的、长期的任务」的核心能力多模态理解与生成Multimodal能力能够理解「多模态输入」比如文本、语音、图片、视频、音频并能够生成「多模态输出」比如文本、语音、图片、视频、音频——这是LLM Agent能够「与人类进行更自然的交互」「感知更复杂的环境」的核心能力知识增强RAG微调提示工程能力能够通过「检索增强生成RAG」「大模型微调」「提示工程Prompt Engineering」等方式获取「特定领域的专业知识」比如医学知识、法律知识、金融知识、工业知识——这是LLM Agent能够「落地到垂直领域」的核心能力。2.1.3 从「单Agent」到「多Agent协作」Agent化的两种主要形态是什么根据「Agent的数量」与「Agent之间的关系」LLM Agent化的产品主要有两种形态形态1单Agent系统Single-Agent System单Agent系统是指「只有一个Agent的系统」——这个Agent具有「完整的感知-决策-行动-反思闭环」能够独立完成所有的任务。单Agent系统的优点是「架构简单」「开发成本低」「维护成本低」「控制难度低」缺点是「能力有限」「无法处理复杂的、需要多角色协作的任务」「容错率低」如果这个Agent出现故障整个系统就会瘫痪。适合单Agent系统的场景任务「相对简单」「不需要多角色协作」「容错率要求不高」——比如私人生活助理Agent相对简单的场景请同事吃一顿饭、订机票、订酒店个性化学习Agent相对简单的场景通过Python二级考试、学习英语四级单词企业报销流程处理Agent相对简单的场景审核报销单的合规性、计算报销金额、生成报销凭证。形态2多Agent协作系统Multi-Agent SystemMAS多Agent协作系统是指「有两个或两个以上的Agent的系统」——这些Agent「具有不同的角色分工」「具有不同的能力」「能够通过某种协议进行交互与协作」共同完成一个复杂的任务。多Agent协作系统的优点是「能力强大」「能够处理复杂的、需要多角色协作的任务」「容错率高」如果其中一个Agent出现故障其他Agent可以继续工作或者可以替换这个Agent缺点是「架构复杂」「开发成本高」「维护成本高」「控制难度高」需要协调多个Agent之间的关系避免出现「冲突」「死锁」「效率低下」等问题。适合多Agent协作系统的场景任务「非常复杂」「需要多角色协作」「容错率要求高」——比如企业产品研发协作系统需要产品经理Agent、UI设计师Agent、前端工程师Agent、后端工程师Agent、测试工程师Agent、运维工程师Agent等多个角色协作企业销售协作系统需要市场调研Agent、潜在客户挖掘Agent、客户需求分析Agent、销售方案制定Agent、客户跟进Agent、合同签订Agent、客户维护Agent等多个角色协作城市管理协作系统需要交通管理Agent、环境管理Agent、安全管理Agent、应急管理Agent等多个角色协作电影/电视剧创作协作系统需要编剧Agent、导演Agent、演员Agent、摄影师Agent、剪辑师Agent、配乐师Agent等多个角色协作。2.2 概念结构与核心要素组成从「感知-决策-行动-反思闭环」到「LLM Agent的技术架构」2.2.1 LLM Agent的核心要素组成感知模块、大脑模块、决策模块、行动模块、记忆模块、反思模块虽然不同的LLM Agent框架比如LangGraph、CrewAI、AutoGen、Coze的技术架构略有不同但它们的核心要素组成都是「基于感知-决策-行动-反思闭环」的——具体来说LLM Agent的核心要素组成包括以下6个模块模块1感知模块Perception Module感知模块的作用是**「实时感知环境的变化并将环境信息转化为LLM能够理解的格式」**——环境信息的来源包括人类输入文本输入、语音输入、图片输入、视频输入、手势输入等外部工具/API返回结果比如天气API返回的天气信息、股票API返回的股票信息、数据库API返回的用户信息、网络爬虫返回的网页信息等传感器数据比如工业设备的温度传感器、压力传感器、振动传感器返回的数据智能手表的心率传感器、步数传感器、睡眠传感器返回的数据等记忆模块存储的历史信息比如之前的对话历史、任务执行历史、环境感知历史等其他Agent发送的信息比如在多Agent协作系统中产品经理Agent发送给UI设计师Agent的PRD文档。感知模块的核心技术包括自然语言处理NLP技术比如语音识别ASR、语音合成TTS、文本分类、文本摘要、命名实体识别NER、关系抽取等计算机视觉CV技术比如图像识别、图像分类、目标检测、图像分割、OCR光学字符识别等多模态融合技术比如将文本、语音、图片、视频等多种模态的信息融合在一起转化为LLM能够理解的格式。模块2大脑模块Brain Module大脑模块是LLM Agent的核心——它的作用是**「接收感知模块转化后的环境信息运用常识推理、逻辑推理、知识增强等能力理解环境信息明确需求细节设定长期/短期子目标制定初步的计划」**。大脑模块的核心技术就是「通用大模型LLM」——目前主流的通用大模型包括国外大模型OpenAI的GPT-4o、GPT-4 Turbo、GPT-3.5 TurboAnthropic的Claude 3 Opus、Claude 3 Sonnet、Claude 3 HaikuGoogle的Gemini 1.5 Pro、Gemini 1.5 Flash、Gemini 1.0 ProMeta的Llama 3、Llama 2等国内大模型字节跳动的豆包4.0、豆包3.5阿里的通义千问3.0、通义千问2.5腾讯的混元3.0、混元2.0百度的文心一言4.0、文心一言3.5智谱AI的GLM-4、GLM-3等。在选择「LLM Agent的大脑模块」时创业公司需要考虑以下5个因素能力比如自然语言理解与生成能力、常识推理与逻辑推理能力、长文本理解与上下文记忆能力、多模态理解与生成能力、知识增强能力等价格比如API调用的价格按Token计费、微调的价格、私有化部署的价格等速度比如API调用的响应时间Latency、Token生成的速度Tokens Per SecondTPS等安全性比如数据隐私保护是否支持数据不流出服务器、内容安全是否支持内容过滤、是否符合当地的法律法规、模型安全是否支持模型对抗攻击防御等可用性比如是否支持国内访问、是否有完善的技术文档、是否有活跃的社区、是否有专业的技术支持等。模块3决策模块Decision Module决策模块的作用是**「接收大脑模块制定的初步计划评估计划的可行性、风险、成本、收益等选择最优的计划并将计划拆解成若干个可执行的行动步骤」**——如果初步计划不可行决策模块还会「将评估结果反馈给大脑模块让大脑模块重新制定计划」。决策模块的核心技术包括计划评估技术比如成本效益分析Cost-Benefit AnalysisCBA、风险评估Risk Assessment、可行性分析Feasibility Analysis等计划选择技术比如启发式搜索Heuristic Search、强化学习Reinforcement LearningRL、遗传算法Genetic AlgorithmGA等计划拆解技术比如任务分解Task Decomposition、层次任务网络Hierarchical Task NetworkHTN等。不过在LLM时代的早期也就是现在大部分LLM Agent的决策模块都是由「大脑模块LLM」直接承担的——因为LLM本身就具有「计划评估、计划选择、计划拆解」的能力。但随着LLM Agent的发展未来「专门的决策模块」可能会越来越重要——因为「专门的决策模块」可以「结合特定领域的专业知识」「使用更高效的算法」「提高决策的准确性和效率」。模块4行动模块Action Module行动模块的作用是**「接收决策模块拆解后的行动步骤调用相应的外部工具/API/设备来执行行动步骤并将执行结果反馈给感知模块」**——如果行动步骤执行失败行动模块还会「将失败原因反馈给感知模块让感知模块将信息传递给大脑模块和决策模块重新制定计划」。行动模块的核心技术包括工具调用技术比如OpenAI的Function Calling、LangChain的Tools、CrewAI的Tools、Coze的Plugins等API集成技术比如RESTful API集成、GraphQL API集成、Webhook集成等设备控制技术比如工业设备控制、智能家居设备控制、机器人控制等。行动模块的外部工具/API/设备来源包括官方提供的工具/API比如OpenAI的DALL-E 3 API图像生成、Whisper API语音识别、Text-to-Speech API语音合成Google的Google Search API、Google Maps API百度的百度搜索API、百度地图API等第三方提供的工具/API比如天气APIOpenWeatherMap、和风天气、股票APIAlpha Vantage、东方财富、数据库APIMySQL、PostgreSQL、MongoDB、网络爬虫APIScrapy、Selenium、Playwright等创业公司自己开发的工具/API/设备比如特定领域的专业知识库API、特定业务流程的处理API、特定的工业设备/智能家居设备等。模块5记忆模块Memory Module记忆模块的作用是**「存储LLM Agent的历史信息包括对话历史、任务执行历史、环境感知历史、知识增强信息等并在需要的时候将历史信息检索出来传递给感知模块和大脑模块」**——这是LLM Agent能够「处理复杂的、长期的任务」「保持对话的连贯性」「反思调整计划」的核心能力之一。根据「记忆的时间长度」和「记忆的重要性」记忆模块可以分为3层这也是目前主流的LLM Agent框架采用的记忆结构短期记忆Short-Term MemorySTM也被称为「工作记忆Working Memory」——存储「最近的、正在处理的信息」比如最近的10-20轮对话历史、最近的几个任务执行步骤、最近的几个环境感知结果短期记忆的「容量有限」一般是LLM的上下文窗口大小比如GPT-4o的上下文窗口大小是128K TokenClaude 3 Opus的上下文窗口大小是200K Token「时间长度有限」一般是当前的对话/任务结束后就会清除除非被保存到长期记忆中长期记忆Long-Term MemoryLTM存储「过去的、重要的信息」比如用户的基本信息、用户的偏好信息、过去的对话历史、过去

更多文章