火,Agent 可太火了!对于 Agent 的进展俯拾皆是文爱 聊天,根底看不外来……
看过来——这篇综述可能能帮你厘清好多问题:
来自华东师大和东华大学的推敲团队发表了"A Survey on the Optimization of Large Language Model-based Agents(大模子智能体的优化模范综述)",初度从系统化视角对 LLM 智能体优化政策进行了全面梳理与分析。
论文将将现存模范区分为两大类:参数驱动的优化与参数无关的优化。
前者包括基于监督微调、强化学习(如 PPO、DPO)以及微调与 RL 结合的夹杂政策,重心参谋了轨迹数据构建、奖励函数想象、优化算法等关键模块。
后者则触及通过 Prompt 工程、外部器用调用、常识检索等花式在不修改模子参数的前提下优化 Agent 行径。
除此以外,作家们还整理了主流的 Agent 微调与评估数据集,总结了 LLM Agent 在医疗、科学、金融、编程等多个应用领域的代表性实践。
终末,推敲团队总结了 Agent 刻下边临的关键挑战与改日推敲处所。
为什么咱们需要有益优化 LLM 智能体?
比年来,跟着 GPT-4、PaLM 和 DeepSeek 等大型话语模子不仅在话语融会和生成上施展出色,更在推理、谋略和复杂方案等方面展现出超卓的能力。
因此,越来越多的推敲者发轫尝试将 LLM 动作智能体来使用,探索其在自动方案和通用东谈主工智能处所的后劲。
与传统的强化学习智能体不同,LLM 智能体不依赖显式的奖励函数,而是通过天然话语指示、Prompt 模板与高下体裁习(ICL)完成复杂任务。
这种"文本驱动"的智能体范式展现出极高的天真性与泛化能力,或者跨任务融会东谈主类意图、实行多门径操作,并在动态环境中作念出方案。
刻下,推敲者已尝试通过任务剖释、自我反想、回首增强以及多智能体合营等花式莳植其施展,应用场景涵盖软件开拓、数学推理、具身智能、网页导航等多个领域。
值得进展的是,LLM 自己的熟识见解是瞻望下一个 token,并非为永久谋略和交互学习的 Agent 任务而生。
这也导致了 LLM 动作 Agent 的部分挑战:
长程谋略与多步推理能力不及,容易在复杂任务中出现积存漏洞;
短少抓续性回首机制,难以基于历史教化进行反想与优化;
对新环境的得当能力有限,难以动态嘱托变化场景。
尤其是开源 LLM 在 agent 任务中的施张开阔过时于 GPT-4 等闭源模子,而闭源模子的高资本与不透明性,也使得优化开源 LLM 以莳植 Agent 能力成为刻下推敲的关键需求。
刻下已有的综述要么聚焦于大模子优化自己,要么只参谋 agent 的局部能力(如谋略、回首或变装演出),并未将" LLM 智能体优化"动作一个孤立且系统的推敲处所进行深切琢磨。
推敲团队填补了这一空缺,初度以" LLM-based Agent 的优化时代"为中枢议题张开系统综述,构建转圜框架,归纳模范旅途,并对比不同时代的优劣与适用情境。
参数驱动的 LLM 智能体优化
在参数驱动的 LLM 优化中,作家将其分为 3 个处所。
基于旧例微调的优化
第一个处所,基于旧例微调的优化。
又分为 2 大门径:构建 Agent 任务的高质料轨迹数据——用轨迹微调 Agent。
最初是数据赢得与生成。
高质料的轨迹数据构建发轫于发轫数据的赢得和生成,这不仅需要一组种种化的轨迹,还需要与见解任务充分对皆,以确保有用的学习。
作家将主流模范归纳为以下四类:
大家标注数据:由东谈主类大家手工想象,质料高、对皆强,是微调的黄金尺度。但东谈主力资本高、难以膨胀,常动作优质补凑数据使用。
强 LLM 自动生成数据:欺诈 GPT-4 等大模子结合 ReAct、CoT 政策生成轨迹,服从高、符合大范围构建。但数据依赖大模子,存在资本高、偏差传播等问题。
Agent 自主探索数据:通过开源模子自主与环境交互生成轨迹,资本低、可开脱闭源依赖。弊端是探索能力有限,需配合后续筛选机制去除低质数据。
多智能体合餬口成数据:通过多个 Agent 协同完成复杂任务经过,莳植数据种种性与交互复杂度。但系统想象更复杂,矫健性和资源资本亦然挑战。
其次,数据的评估与过滤。
由于生成的轨迹数据质料错落不皆,对数据进行评估和筛选成为不行或缺的一步。
作家将主流模范归纳为三类:
基于环境的评估:这类模范依靠任务是否成功、环境奖励等外部响应来判断轨迹质料,易于已毕,自动化进程高。但弊端是响应信号过于粗粒度,只热心最闭幕尾,无法发现推理链条中的隐性漏洞。
基于东谈主工或章程的评估:通过预设章程(如任务完成度、谜底一致性、种种性等)或大家东谈主工审核,对数据进行更精细的质料限定。适配性强、准确性高,但也需要大都东谈主工参与与复杂想象。
基于模子的评估:借助强盛的 LLM(如 GPT-4)对轨迹进行自动打分与分析,能从联系性、准确性、完好意思性等维度进行多层评估,构建自动化质料评估框架。弊端在于,评估自己依赖模子,可能引入新的偏差。
接着是低质料样本的欺诈。
除了高质料的赢得,对不对格的低质料轨迹也需要再次欺诈。
当今的主流政策包括:
对比式欺诈:通过对比正确与漏洞样本,让模子更了了地识别哪些行径是有用的。
漏洞修正型模范:识别并修正失败轨迹,将其升沉为可学习的数据,莳植熟识质料。
顺利欺诈漏洞样本:不作念修正,顺利用失败案例熟识模子,莳植其濒临漏洞情境时的容错性。
完成高质料轨迹数据构建后,下一步等于关键的微调阶段。
通过微调文爱 聊天,让路源大模子着实得当 Agent 任务,学会谋略、推理与交互,是优化 LLM 智能体不行或缺的一步。
值得进展的是,仅用 Agent 任务轨迹微调可能会减轻 LLM 的通用能力。
因此,大多责任取舍夹杂通用指示数据与 Agent 轨迹共同熟识,以在保留话语基础能力的同期,莳植 Agent 实行能力。
作家将现存的微调模范区分为三大类:
尺度 SFT:最常见的模范,通过高质料指示 - 输出对或轨迹数据,对模子进行全参数优化,最能对皆见解任务。此外,效法学习中的行径克隆本体上也属于这一类,强调从大家轨迹中学习方案政策。
参数高效微调(如 LoRA/QLoRA):只更新少许参数,其余权重保抓不动,显贵镌汰显存与算力支拨,在大模子 Agent 微调中尤为常见。比较全量微调,天然熟识支拨更小,但性能一样可比好意思致使跳跃
自界说微调政策:为特定任务想象的微调模范,举例将通用指示与轨迹数据夹杂熟识,或引入止境不竭项(如正则化)莳植泛化与矫健性。这类模范更具天真性,符合复杂或稀缺任务场景。
基于强化学习的优化
比较于传统的微调花式,强化学习为 Agent 带来了更具主动性的学习旅途。
它让模子不再仅仅"效法",而是能在环境中探索行径、接授奖励与刑事职守,动态退换政策,着实已毕从试错中成长。
作家将刻下 RL 优化花式分为:基于奖励函数的优化和基于偏好对皆的优化。
先说基于奖励函数的优化。
在强化学习优化中,奖励函数就像智能体的率领棒,疏浚模子延续修订政策。通过设定了了的"作念得好 vs 作念错了"尺度,Agent 不错从交互中学习得更精细、更慎重。
作家将刻下哨法按照三类奖励开端区分 3 类:
基于环境的奖励:顺利依据任务是否完成来打分,浅薄直不雅,自动化进程高。但一样只热心最闭幕尾,忽略了中间门径的质料。
基于模子的奖励:由 LLM 或提拔模子对轨迹进行评估,适用于环境响应稀薄的场景,能提供更精致的响应。但服从取决于评估模子的质料。
自界说奖励函数:推敲者凭据任务需求自设多维度奖励,不仅侦探完成度,也热心政策矫健性、合营服从等。天真强盛,但想象资本高、难以泛化。
再来看基于偏好对皆的优化。
比较传统 RL 基于奖励函数的熟识花式,偏好对皆提供了更顺利、更轻量的优化旅途。
它不再依赖繁琐的奖励建模,而是让 Agent 学会"哪种行径更受东谈主类迎接"。
其代表模范是 DPO,一种更浅薄的离线强化学习花式,顺利通过东谈主类或大家的偏好对样本进行"正负对比"熟识。
凭据主要偏好数据开端,作家将其这类优化模范分为两类:
大家 / 东谈主工偏好数:基于大家示范或东谈主类标注构造正负样本(优质 vs 漏洞轨迹),质料高但难以大范围膨胀,掩盖面有限。
任务或环境响应:从任务施展(成功率、分数等)中自动构建偏好对,适用于动态任务场景,但依赖响应机制合理的想象。
综合来看,偏好对皆模范熟识高效、部署浅薄,但强依赖偏好数据质料与掩盖范围,符合结构明确、响应了了的任务场景。
而奖励函数类模范更适配复杂多变的环境,但资本更高。
夹杂参数微调模范
单一的优化模范各有短板——旧例微调矫健高效但短少动态应变能力,RL 天真强盛却计较支拨广阔。
于是,越来越多推敲发轫探索夹杂微调政策,结合两者优点,构建更强盛的 LLM 智能体。
这类责任东要为:
第一,规矩式两阶段熟识。
这亦然是刻下的主流模范,取舍"先 SFT、后 RL "的想路。
阶段一:行径克隆微调(SFT),用大家轨迹或策展数据预熟识模子,奠定基础能力;
阶段二:强化学习优化(PPO / DPO),针对环境或偏好精调模子政策。
第二,轮换优化。
即引入迭代轮换机制,在 SFT 和 RL 之间多轮往还切换,以已毕细粒度莳植。
参数无关的 LLM 智能体优化
比较参数微调,参数无关的优化模范不触及模子权重更新,而是通过退换 Prompt、高下文和外部信息结构,在资源受限或轻量部署场景中展现出强盛后劲。
作家将其分为五类中枢政策:
第一类,基于教化的优化。
通过回首模块或历史轨迹,让 Agent "学会复盘",从当年成功与失败中索取政策,增强永久得当性。
第二类,基于响应的优化。
Agent 通过自我反想或外部评估延续修正行径,变成迭代闭环;还有模范通过元教唆优化退换全局指示结构,莳植泛化能力。
第三类,基于器用的优化。
让 Agent 学会使用器用(如搜索、计较器、API)以增强实行力。部分模范优化器用调用政策,部分则熟识 Agent 构建更高效的任务 - 器用旅途。
第四类,基于 RAG 的优化。
结合检索与生成,通过从数据库 / 常识库中实时赢得信息增强推理过程,尤其符合常识密集型任务和变化快速的场景。
第五类,多 Agent 合营优化。
多个 LLM Agent 协同完成任务,通过变装单干、信息分享与响应机制已毕 1+1>2 的协同智能。
参数无关优化,让 LLM Agent 在不动模子的前提下,变得更"机灵"、更"得当"、也更"轻巧"。
数据集与基准
作家将数据和基准分为用于评估和微调的两个大类。
评估任务分为两类。
第一类,通用评估任务。
即按一般任务领域分类,如数学推理,问题推理(QA)任务,多模态任务,编程等。
第二类,多任务评估基准。
跨种种任务评估基于 LLM 的智能体,测试它们综合和得当不同领域的能力。
Agent 微调数据集,则是针对 Agent 微调而全心想象的数据,以提高 LLM Agent 在不同任务和环境中的能力。
应用
跟着优化模范的延续老成,基于 LLM 的智能体已在多个确凿场景中崭露头角,逐步从实验室走向推行应用:
挑战与改日处所
数据偏差问题。
Agent 高度依赖数据质料,然而预熟识数据与微调轨迹散布不匹配,再加上 LLM 自身生成与评估带来的潜在偏差,易导致性能不矫健。
改日可探索偏差测试、反抗熟识、常识范围评估等模范,构建更慎重的数据基础。
算法服从与得当性。
刻下强化学习与微调模范在濒临稀薄奖励、大动作空间、多步交互时存在资本高、服从差的问题。
怎么莳植 DPO 等轻量模范的多轮能力,或探索 RL+SFT 的夹杂熟识、元学习、自监督模范,将是改日重心。
跨任务跨领域移动难。
许多模范在单一任务上施展优秀,但在新环境或确凿寰宇中易失效。
需要发展更强的泛化机制,如任务散布对皆、域得当、多任务联贯熟识等,莳植模子移动与得当能力。
短少转圜评估尺度。
Agent 在不同任务(如数学推理、网页导航、具身 AI)中使用不同方针,难以横向比较。
开拓转圜的评估基准,引入推理复杂度、得当性与偏好评分等新维度,将鞭策 Agent 推敲向更系统、可比的处所发展。
参数驱动的多智能体优化缺失。
当今多智能体政策多依赖冻结 LLM,短少联贯参数熟识机制,为止了协同智能的发展。
改日应探索多智能体联贯微调、奖励分享机制、层级限定政策,莳植合座系统能力与合营水平。
arXiv 勾通:
https://arxiv.org/abs/2503.12434
GitHub 勾通:
https://github.com/YoungDubbyDu/LLM-Agent-Optimization
一键三连「点赞」「转发」「留心心」
迎接在指摘区留住你的想法!
— 完 —
学术投稿请于责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 名目主页勾通,以及臆度花式哦
成人网址导航咱们会(尽量)实时回答你
� � 点亮星标 � �
科技前沿进展逐日见文爱 聊天