这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama 3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama 3 非常常见。
国外大模型也有“李鬼”,它的名字叫做“反思”(REFLECTION)。众所周知的,大模型常常胡说八道;在专业上,我们把大模型的胡说八道归咎为“幻觉”。而这个突然冒出来的名为“REFLECTION”的 70B模型声称它在减轻大模型幻觉方面表现出显著改进 ...
针对 AI 模型基准测试结果不佳,Reflection 公司首席执行官马特・舒默(Matt Shumer)表示,上传模型权重至 Hugging Face 时遇到问题,所使用的权重是多个不同模型的混合体,而他们内部托管的模型则显示出更佳的结果。
机器之心报道编辑:佳琪、蛋酱快速更迭的开源大模型领域,又出现了新王:Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。这个新模型 ...
新模型名为 Reflection 70B ,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。 比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在 <反思>标签 中纠正了自己。
不过官方同时也表示,会给测评人员提供模型API,然后Reflection的成绩果真有了增长,但在GPQA上仍然不敌Claude 3.5 Sonnet。 除了成绩有争议,还有人对Reflection中的各层进行了分析,认为它是由Llama ...
昨天,开源模型领域迎来一匹黑马 —— 一个名为 Reflection 70B 的模型横扫 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1,成为开源模型新王。
人工智能初创公司HyperWrite的首席执行官Matt Shumer宣布了一个重要的里程碑:他们推出了基于Meta开源Llama3.1-70B ...
这款由纽约初创公司 HyperWrite 发布的模型,自称是 Meta 公司的 Llama3.1变种,曾以其在第三方测试中的优异表现引发关注。然而,随着一些测试结果的公布,Reflection70B 的声誉却开始受到挑战。
在快速发展的人工智能领域,模型的真实性与能力一直是备受关注的焦点。近日,一款被称为“最强开源模型”的Reflection刚发布一周便陷入了造假风波,引发了广泛的讨论。这款声明能够超越GPT-4o的70B开源大模型在第三方测试中的表现大打折扣,不仅未达 ...
近日,AI写作初创公司HyperWrite的联合创始人兼首席执行官Matt Shumer宣布推出了一款新的大型语言模型(LLM)——Reflection 70B。这款模型基于Meta的开源Llama 3.1-70B ...
但 Reflection 刚发布两天,第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。 在 MMLU、GPQA 和 MATH 上,Reflection 的成绩和 Llama3 70B 一样,连 Llama 3.1-70B 都比不过,更不用说 405B 了。