你的位置:TG反波胆足球app > 新闻 >
TG反波胆足球app商讨东说念主员开荒了用于强化学习的无监督奖励函数-TG反波胆足球app
发布日期:2025-10-06 03:56    点击次数:98

TG反波胆足球app商讨东说念主员开荒了用于强化学习的无监督奖励函数-TG反波胆足球app

AI 通过自问自答就能提高推明智商?!TG反波胆足球app

这恰是卡内基梅隆大学团队建议的新框架SQLM——一种无需外部数据的自我发问模子。

该框架包含发问者(proposer)息争答者(solver)两个变装,发问者生成与给定主题干系的问题,解答者旨在贬贬低题。

网友们神评,"险些是带有 RL 的 GAN "。

值得一提的是,此团队中又双叒叕现华东说念主身影~

通过强化学习最大化祈望奖励

现时鬼话语模子的磨砺很猛进程上仍依赖东说念主奥妙理数据集,号称费时艰苦。

为了轻视这一背负,商讨东说念主员开荒了用于强化学习的无监督奖励函数。但是,这些函数仍然依赖于事先提供的高质地输入教唆。

因此,问题的难点从"生成谜底"滚动到了"生成高质地问题"。

这突显出现时设施的一个关节不及:

清寒一种可扩张且自我督察的过程,约略在无东说念骨侵扰的情况下自动生成出奇旨的问题和谜底。

为此,商讨者建议了SQLM 框架,一种非对称的自我博弈框架,其中发问者,解答者回话该问题,两者均通过强化学习进行磨砺,以最大化祈望奖励。

其中,发问者生成问题会对解答者酿成条目影响,而解答者的进展又反过来为发问者提供奖励,从而束缚优化发问者。

由于清寒实在谜底,商讨者贪图了基于"生成者–考据者差距"的自监督奖励函数。

若生成器 - 考据器差距小(举例算数问题),则领受大批投票看成代理奖励。

若生成器 - 考据器差距大(举例编程问题),先由发问者生成测试用例,奖励则基于通过测试的比例。

这种极小极大式的磨砺框架通过自博弈完结了褂讪磨砺,并使奖励机制约略针对具体问题进行自符合搬动。

为了评估模子的不同智商,商讨者进行了三部分任务,并使用 Qwen2.5-3B-Instruct 入手执行。

算术任务

商讨东说念主员让发问者生成一个三位数的算数问题,并将其看成解答器的输入。他们按照 TinyZero 的修复,构建了一组包含 4096 个三位数乘法问题的测试集。

代数任务

商讨者让模子生成最多包含两个变量的线性方程,并在 OMEGA 基准中的 100 说念线性方程测试题上进行评估。

编程问题

他们让模子生成访佛 LeetCode 中绵薄题的问题,输入为整数列表,输出为单个整数或另一个列表,并在 Codeforces 测试集的一个子集上进行评估。

执行成果袒露,SQLM 将 Qwen2.5-3B-Instruct 在算术任务上的准确率提高了 14%,在代数任务上提高了 16%;在编程任务上的准确率提高了 7%。

此外,上表还袒泄露 SQLM 显耀优于时势奖励基线(用于褂讪磨砺和阵势输出时势的参考值),标明推明智商的信得过提高。

团队先容

Lili Chen,本科毕业于加州大学伯克利分校,现博士就读于卡内基梅隆大学。

Katerina Fragkiadaki,卡内基梅隆大学机器学习系酌量机科学副栽植,博士毕业于宾夕法尼亚大,曾在加州大学伯克利分校担任博士后商讨员,并于谷歌商讨院责任。

Hao Liu,博士毕业于加州大学伯克利分校,曾任谷歌 DeepMind 商讨员,行将出任卡内基梅隆大学机器学习系的助理栽植。

Deepak Pathak,Skild AI 独创东说念主,本科就读于印度理工学院坎普尔分校,博士毕业于加州大学伯克利分校,曾在 Meta 担任了一年的商讨员,现任卡内基梅隆大学酌量机科学学院的助理栽植。

参考通顺:

[ 1 ] https://x.com/iScienceLuvr/status/1953052817012474353

[ 2 ] https://arxiv.org/abs/2508.03682

一键三连「点赞」「转发」「防卫心」

接待在挑剔区留住你的思法!

—  完  —

� � 但愿了解 AI 家具最新趋势?

量子位智库「AI 100」2025 上半年

「旗舰家具榜」和「改进家具榜」

给出最新参考� �

� � 点亮星标 � �

科技前沿进展逐日见TG反波胆足球app





Powered by TG反波胆足球app @2013-2022 RSS地图 HTML地图