搜索优化
Rewards
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
房地产
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
13 天
这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练
这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama 3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama 3 非常常见。
12 天
号称赶超CLAUDE3的开源模型REFLECTION竟是“李鬼”,但它并非一无是处
国外大模型也有“李鬼”,它的名字叫做“反思”(REFLECTION)。众所周知的,大模型常常胡说八道;在专业上,我们把大模型的胡说八道归咎为“幻觉”。而这个突然冒出来的名为“REFLECTION”的 70B模型声称它在减轻大模型幻觉方面表现出显著改进 ...
10 天
Reflection 70B AI 模型“塌房”:第三方基准测试结果不佳,不如 LLaMA-3.1-70B
针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。
15 天
开源大模型的新王诞生了?号称超越GPT-4o,模型还能自动纠错
机器之心报道编辑:佳琪、蛋酱快速更迭的开源大模型领域,又出现了新王:Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。这个新模型 ...
15 天
开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆 ...
新模型名为 Reflection 70B ,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。 比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在 <反思>标签 中纠正了自己。
7 天
“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试 ...
不过官方同时也表示,会给测评人员提供模型API,然后Reflection的成绩果真有了增长,但在GPQA上仍然不敌Claude 3.5 Sonnet。 除了成绩有争议,还有人对Reflection中的各层进行了分析,认为它是由Llama ...
12 天
两个人,三周做出开源模型新王Reflection 70B?靠谱吗?
昨天,开源模型领域迎来一匹黑马 —— 一个名为 Reflection 70B 的模型横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1,成为开源模型新王。
15 天
性能超越GPT-4o 和 Claude 3.5 Sonnet!超强的Reflection 70B 模型登场
人工智能初创公司HyperWrite的首席执行官Matt Shumer宣布了一个重要的里程碑:他们推出了基于Meta开源Llama3.1-70B ...
11 天
号称最强模型Reflection 70B遭质疑,创始人面临 “欺诈” 指控
这款由纽约初创公司 HyperWrite 发布的模型,自称是 Meta 公司的 Llama3.1变种,曾以其在第三方测试中的优异表现引发关注。然而,随着一些测试结果的公布,Reflection70B 的声誉却开始受到挑战。
8 天
最强开源模型Reflection被质疑造假,AI测试基准不再可靠?
在快速发展的人工智能领域,模型的真实性与能力一直是备受关注的焦点。近日,一款被称为“最强开源模型”的Reflection刚发布一周便陷入了造假风波,引发了广泛的讨论。这款声明能够超越GPT-4o的70B开源大模型在第三方测试中的表现大打折扣,不仅未达 ...
13 天
HyperWrite发布创新型AI模型Reflection 70B,具备自我纠错能力
近日,AI写作初创公司HyperWrite的联合创始人兼首席执行官Matt Shumer宣布推出了一款新的大型语言模型(LLM)——Reflection 70B。这款模型基于Meta的开源Llama 3.1-70B ...
8 天
“最强开源模型”Reflection 被打假,英伟达科学家称现有测试基准已 ...
但 Reflection 刚发布两天,第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。 在 MMLU、GPQA 和 MATH 上,Reflection 的成绩和 Llama3 70B 一样,连 Llama 3.1-70B 都比不过,更不用说 405B 了。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈