Reward - 搜索 News

3 天

北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式

OpenAI o1 在数学、代码、长程规划等问题取得显著的进步。一部分业内人士分析其原因是由于构建足够庞大的逻辑数据集 <问题，明确的正确答案> ，再加上类似 AlphaGo 中 MCTS 和 RL ...

8 天

昆仑万维发布全新大模型奖励模型Skywork-Reward，登顶RewardBench

近日，昆仑万维发布了两款全新的奖励模型Skywork-Reward-Gemma-2-27B和Skywork-Reward-Llama-3.1-8B。在权威奖励模型评估基准 RewardBench 上，这两款模型表现卓越，分别位列 ...

8 天

昆仑万维发布奖励模型 Skywork-Reward，登顶 RewardBench 排行榜

IT之家 9 月 13 日消息，昆仑万维发布了两款全新的奖励模型 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B。在奖励模型评估基准 RewardBench 上，这两款模型 ...

5 小时

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

其次用于微调的基础模型初始化在编辑距离上呈现出高度倾斜的分布（图 ...

大江网1 天

九江市同文中学“同文讲坛”第64讲开讲：《找到自己的“Reward ...

大江网/大江新闻客户端讯通讯员汤潇艺报道：近日，九江市同文中学“同文讲坛”第64讲开讲。同文中学2018届毕业生、优秀校友、斯坦福大学在读博士吴语嫣作《找到自己的“Reward ...

2 天

OpenAI发布新模型，更擅长推理、偶尔也会欺骗

有时这些欺骗似乎是无害的。在一个例子中，OpenAI的研究人员要求o1-preview提供一个带有在线参考的布朗尼食谱。该模型的思维链——一个应该模仿人类如何分解复杂想法的功能——在内部承认它无法访问URL，使得请求不可能。o1-preview并没有 ...

来自MSN7 小时

中东土豪这次投香港，沙特首只跟踪港股的ETF获批，指数前十大重仓 ...

财联社9月21日讯（记者吴雨其）沙特首只追踪香港市场的ETF来了！沙特资本市场管理局日前发布公告，已批准一只投资中国香港股票的ETF基金。该ETF由阿尔比拉德资本（Albilad ...

8 天

Midjourney 7.0版本或在2个月内发布一次性可生成8张图，正开发3D系统

Midjourney创始人兼CEO David ...

2 天

OpenAI o1推理模型存在隐忧：数据编造、奖励黑客、假装完成任务

AI模型有时会生成不真实的信息，聊天机器人有时候也会输出虚假内容。o1模型的不同在于其与强化学习中的奖励黑客行为（Reward hacking）紧密相关，它可能在未真正完成任务的情况下，表现得像是在遵循规则来完成任务。当该模型知道自己无法完成任务时，它不会坦白承认做不到，而是可能会编造数据来应对，生成令人满意的响应，以迎合用户的请求。

2 天

不再是天堂？NCsoft正在开发“Roguelite”类型PC游戏

NC方面介绍称，《MDR计划》团队是为进行新项目而近期成立的组织，目标是通过开发新游戏类型来扩展NC的游戏类型。该项目将支持PC和控制台主机平台，并且正在使用虚幻5引擎进行开发。

12 天

Anthropic安全负责人：在超级AI「毁灭」人类之前，我们可以做这些准备

当前的 TAI 安全工作通常至少涉及一定程度的推测或推断，原因很简单，我们往往无法验证那些构成风险的系统。如果可以找到过渡到具体实证工作的方法，则应该这样做，既是为了巩固我们对威胁模型的信心，也为其他相关方（尤其包括决策制定者）提供更具说服力的证据 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果