CoT爆火之后,谷歌DeepMind首席科学家Denny Zhou拿出了自己团队八月份的一篇论文,抛出了这样的观点:「LLM推理能力的极限是什么?那就是没有限制」。
新智元报道  编辑:编辑部 HXY【新智元导读】o1的秘诀,和全新的「推理Scaling Law」关系有多大?Epoch ...
【新智元导读】o1大火背后,最关键的技术是CoT。模型通过一步一步推理,恰恰是「慢思考」的核心要义。而这一观点,其实这家国内大厂早就率先实现了。
【新智元导读】o1诞生,对于OpenAI团队来说,是最具革命性的时刻。在22分钟完整版采访视频中,他们分享了自己对新模型的思考,以及背后的开发故事。 有时候,当被问及意大利首都是什么问题时,我们几乎不用思考,即刻就能得出答案。但有时候,涉及商业企划书 ...
【导读】 Ilya两年前观点,竟被Nature论文反驳了!来自剑桥大学等团队最新研究发现,所有大模型并不可靠,包括最强o1。 2022年,AI大牛Ilya Sutskever曾预测:「随着时间推移,人类预期和AI实际表现差异可能会缩小」。
姚期智教授2004年从普林斯顿辞去终身教职回到清华任教;2005年为清华本科生创立了计算机科学实验班“姚班”;2011年创建“清华量子信息中心”与“交叉信息研究院”;2019年再为清华本科生创立了人工智能学堂班,简称“智班”。
最终,o1-mini帮助AryanDLuffy获得了3922分的总成绩,在超过16万参赛者中排名277,也就是排名在前0.17%。 对此,Mark Chen和很多网友的想法是,IMO和Codeforces的竞赛题也许可以作为新型的LLM基准测试。然而 ...
上周中秋节就没有更新,想着都放假也没啥人看,自己顺便休息一下,把两周内容都放一起了。上周精选 Open AI 发布 o1 推理模型[2]这两周最大的新闻就是 OpenAI o1 ...
博客概述:这篇博客介绍了 CriticGPT——OpenAI 基于 GPT-4 训练的一个专门给 ChatGPT 挑毛病的新模型。它通过精准地分析 ChatGPT ...
Google DeepMind的研究人员发布了一种多轮在线强化学习(RL)方法 SCoRe,在完全使用自生成数据(entirely self-generated data)的情况下,显着提高了LLM的自我纠正能力。 研究人员首先验证了有监督微调 ...
论文一:Why Do We Need Weight Decay in Modern Deep Learning?
在炒作将近9个月后,OpenAI代号“草莓”的模型o1终于深夜突然亮相,一时间具备试用资格的大牛纷纷开始了测评,业内许多AI项目、公司的大佬如英伟达高级研究经理JimFan、Devin的DeepWisdom创始人纷纷发表了自己对于o1的使用感受。