常用: 学生 教职工 校友 OA系统 邮件系统 VPN系统 图书馆 智慧门户 EN
首页 世界杯官网 2026世界杯竞猜(中国)官网 当SFT遇上RL:基于样本学习阶段的动态战略优化

2026世界杯竞猜(中国)官网 当SFT遇上RL:基于样本学习阶段的动态战略优化机制

发布时间:2026-05-15 来源:世界杯官网 作者:admin 浏览:123

2026世界杯竞猜(中国)官网 当SFT遇上RL:基于样本学习阶段的动态战略优化机制

畴昔一段时分里,在围绕大模子推理能力增强的探究中,SFT 和 RL 是两类中枢后窥探范式 —— 前者踏实敛迹快,能高效接纳高质地推理数据;后者更具探索性,有望推动模子兑现复杂推理和散播外泛化。

但在实质窥探中,这两种信号却难以灵验会通,现存责任大多仅停留在 "把两个 loss 混在沿路" 的层面。

为搪塞这一挑战,探究团队忽视了DYPO(Dynamic Policy Optimization) 动态战略优化轮番。

中枢念念考在于:既然 SFT 和 RL 的学习信号统计性质自然不同,合伙优化要如何作念,才能既保留监督学习的踏实性,又不葬送强化学习的探索能力?

△ 图 1:DYPO 的合座框架

如图 1,模子会先把柄一组 rollout 的恶果判断样本所处的学习阶段,再决定它应该走监督旅途、强化学习旅途,照旧暂时跳过。

SFT 和 RL 为什么很难委果协同

要是把大模子后窥探比作"教悔生作念题",SFT 和 RL 的特点互异便一目了然。

SFT更像敦厚径直讲圭臬谜底。它的优点是学得快、过程稳、敛迹也更容易示寂,但问题在于,学生很容易学成"会按套路作念题",一朝题目略微变形,就可能隐隐泛化能力。

RL更像让学生我方反复尝试,再把柄得分不断修正战略。它的优点是更有探索性,更可能逼着模子从"记着解法"走向"学会推理",但瑕疵相同显明:窥探过程中波动更大,奖励一朝寥落,模子就很容易学偏,以致不踏实。

从表面层面看,这背后对应着典型的偏差—方差矛盾:

SFT:低方差,但高偏差。SFT 的梯度来自静态高质地数据,更新踏实、噪声小,却自然偏向拟合示范散播,压缩模子探索空间;

RL:低偏差,但高方差。RL 通过奖励动手试错,更接近 "灵验战略优化",但受采样随即性和奖励寥落性影响,梯度方差高、窥探易波动。

问题也正出在这里。好多合伙窥探轮番自然同期用了 SFT 和 RL,但默许所有样本都值得用统一种步地去向理。

但实质情况中,不相同本的学习信号存在显赫互异:有些问题模子照旧会了,屡次 rollout 都能答对,这类样本赓续窥探,收益不时很有限;有些问题模子刻下皆备不会,屡次 rollout 全部失败,这时径直作念 RL 经常也拿不到什么灵验奖励;

委果最值得优化的,反而是那些"照旧会极少,但还不踏实"的样本。它们既阐明模子照旧摸到了门槛,又保留了区分正确轨迹和失误轨迹的空间。

因此,这项责任想责罚的,并不是"要不要把 SFT 和 RL 放在沿路",而是更进一步:不同学习阶段的样本,到底应该若何被优化,才能在踏实和探索之间找到更合理的均衡。

△ 图 2:SFT 与 RL 的偏差—方差矛盾

SFT 更稳,但偏差更大;RL 偏差更低,但窥探波动显明更强。

DYPO 如何同期处理偏差和方差问题

基于上述念念考,赛马投注中国app官方版下载本文忽视了Dynamic Policy Optimization ( DYPO )  。它的中枢念念想并不是再堆一个更复杂的窥探经由,而是先把柄 rollout 恶果判断样本所处的学习阶段,再去匹配最合适的优化旅途。

具体而言,DYPO 会让刻下战略为每个问题生成一组 rollout,然后把柄这些 rollout 的成败情况,把样本分离红三类:

Easy 样本:一组 rollout 全部收效,阐明模子已掌合手这类问题,径直跳过以减少无效更新;

Hard 样本:一组 rollout 全部失败,阐明模子隐隐富余学问基础,径直作念 RL 难获踏实正向信号。对此接收多锤真金不怕火蒸馏(Multi-Teacher Distillation),引入多个 teacher 让 student 学习多种合理推理轨迹的共通部分,减少单一 teacher 的特定偏差,先诞生可靠先验,再去道后续探索;

Mid 样本:一组 rollout 有收效也有失败,是最有价值的"学习前沿"。这类样本顺应 RL 优化。但为责罚圭臬 RL 的高方差问题,团队在 GRPO 的基础上引入了Group Alignment Loss,也即是GAL,来对皆亏本。

GAL 的中枢念念路是哄骗统一组 rollout 中的成败轨迹互异,显式将模子拉向正确轨迹、推离失误轨迹。这让 RL 更新不再仅依赖高噪声奖励信号,而是稀少获取了一层更踏实的相对对皆管制。

换句话说,GAL 的作用并不是简便"再加一个 loss ",而是在 RL 更新过程中充任一个动态的方差扼制项。

要是从表面上追念 DYPO 的野心逻辑,它其实是在分别处理 SFT 和 RL 的两个中枢舛误:

多锤真金不怕火蒸馏针对Hard 样本,缓解 SFT 的高偏差问题。多个 teacher 的组合可对消个体偏差,2026世界杯竞猜使合座监督偏差随 teacher 数目加多而下落;

GAL 针对Mid 样本,责罚 RL 的高方差问题。混杂目的的梯度方差严格小于纯 GRPO,且随模子区分轨迹能力的升迁,GAL 自身的方差还会进一步自然衰减。

由此可见,DYPO 并不是简便把 SFT 和 RL 拼起来,而是在结构上把"高偏差监督"和"高方差强化学习"分别放到最顺应的样本上处理。也正因为如斯,它更像是一种从头组织后窥探过程的步地,而不单是是一个新的窥探手段。

△ 图 3:GAL 的直不雅机制

如图 3,它哄骗统一组 rollout 中照旧出现的正负样本,把模子往正确轨迹见解拉近,同期把失误轨迹往外推开。

本质恶果

探究团队在数学和逻辑推理场景开展本质,基础模子包括Qwen2.5-Math-7B 和 Qwen3-4B-Base,评测任务粉饰 AIME 2024/2025、AMC、MATH-500、Minerva,以及更偏散播外泛化的 ARC-c 和 GPQA-Diamond。

对这类责任来说,分数自然遑急,但要是只看最终恶果,很容易把 DYPO 会通成"又一个作念得更高的窥探手段"。真恰恰得看的,其实是它到底赢在什么所在。

在Qwen2.5-Math-7B上,和传统SFT → RL章程 pipeline 比拟,DYPO:

五个复杂推理 benchmark 上的平平分从47.7升迁到52.5,对应4.8个点的升迁

在 OOD 任务上,平平分从48.3升迁到61.6,对应13.3个点的升迁

这一升迁并非依赖单一任务冲高,而是合座发达更踏实。尤其是在GPQA-Diamond这种更垂青迁徙推理能力的任务上,DYPO 取得了表中最佳的恶果,这阐明它学到的并不单是更濒临窥探散播的模板。

△ 图 4:Qwen2.5-Math-7B 上的合座恶果对比

如图炫耀,DYPO 在复杂推理和散播外任务上都发达出较强的轮廓上风。

在Qwen3-4B-Base上,雷同的趋势依然存在。DYPO:

在 ID 任务上的平平分达到66.9,显明高于SFT → RL的56.1;

在 OOD 任务上,平平分达到68.5,也高于后者的 52.6。

这阐明它的收益并不单依赖某一个特定 backbone,而更像来自这套动态分流机制自身。

此外,消融本质进一步考据了轮番灵验性。

好多手艺,一个轮番看起来更强,随机是因为轮番自身,也可能只是 teacher 更强、数据更好。

但在这项责任里,即便把第二个 teacher 换成比原锤真金不怕火 deepseek-R1 更弱的 Qwen3-8B 模子,DYPO 依然能把AIME 25从22.0升迁到27.8,把GPQA-Diamond从30.8升迁到39.4。

这意味着它的升迁并不单是来自"多喂了一些更强 teacher 的数据",而是后头这套动态路由与低方差优化自身确乎理解了作用。

除了最终恶果,探究还考据了 DYPO 的窥探踏实性。

作家分析了窥探过程中离线数据占比、reward 和战略熵的变化。

一个很有真理的气候是,DYPO 并不是一上来就把模子推向更强的探索,而是跟着能力升迁,渐渐缩短对监督信号的依赖,让窥探自然从"更靠 teacher 扶着走"过渡到"更依赖战略我方探索"。

这个过程有点像一种自顺应课程学习:先把基础稳住,再把探索空间冉冉放出来。

△ 图 5:窥探动态分析

如图,跟着窥探激动,DYPO 会渐渐减少对离线监督的依赖,同期保持相对健康的战略种种性。

再看梯度范数。

圭臬 GRPO 的梯度弧线会有比较显明的剧烈颤动,而 DYPO 的弧线要平滑得多。这种互异看起来像是窥探细节,但背后对应的其实是一个很实质的问题:要是梯度一直在大幅舞动,窥探就更容易发散,也更难把学习率和优化战略设得积极。

DYPO 在这里发达出的踏实性,正好阐明它对 RL 那部分高方差更新作念了灵验管制。

△ 图 6:梯度范数对比

如图 6, 和圭臬 GRPO 比拟,DYPO 的更新轨迹更平滑,也更容易保持可控。

追念

DYPO 不是在解说 SFT 和 RL 不错沿路用,而是在回话它们到底应该若何沿路用。它提供的,是一种更像"窥探组织步地"的念念路。

过往探究已意志到,单纯依赖监督大致单纯依赖强化学习,都不及以把大模子推理能力往前再推一大步。但中枢难点并非野心目的函数,而是不同阶段、不相同本暴融会来的学习信号自身就不一样。

DYPO 的中枢孝敬,是将优化逻辑前移:先判断样本学习阶段,再匹配优化旅途。这么一来,SFT 矜重把模子扶稳,RL 矜重让模子赓续往外探索,而非无永诀地混杂两种信号。

自然,这项责任也有其本质范畴。

当今主要考据的是数学与逻辑推理场景,对洞开式对话、创作类任务是否相同灵验,还需要进一步不雅察;同期,为了踏实揣度样本难度,窥探时每个 prompt 需要生成 8 条 rollout,这也意味着稀少算力支拨。

关于大模子推理能力增强来说,这也许不是绝顶,但 DYPO 无疑提供了一个值得不时激动的新见解。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link:   https://github.com/Tocci-Zhu/DYPO

一键三连「点赞」「转发」「注意心」

接待在辩驳区留住你的想法!

滚球app中国官方网站

—  完  —

咱们正在招聘又名眼疾手快、热心 AI 的学术剪辑实习生  � �

感有趣有趣的小伙伴接待热心 � �  了解确定

� � 点亮星标 � �

科技前沿进展逐日见2026世界杯竞猜(中国)官网