REFLECTION - 搜索 News

13 天

这就翻车了？Reflection 70B遭质疑基模为Llama 3，作者：重新训练

这样的事实摆在眼前，似乎让人不得不信。各路网友也开始发声附和，有人表示自己从一开始就怀疑它是 Llama 3，当用德语问模型一些事情时，它却用英语回答。这种行为对于 Llama 3 非常常见。

12 天

号称赶超CLAUDE3的开源模型REFLECTION竟是“李鬼”，但它并非一无是处

国外大模型也有“李鬼”，它的名字叫做“反思”（REFLECTION）。众所周知的，大模型常常胡说八道；在专业上，我们把大模型的胡说八道归咎为“幻觉”。而这个突然冒出来的名为“REFLECTION”的 70B模型声称它在减轻大模型幻觉方面表现出显著改进 ...

10 天

Reflection 70B AI 模型“塌房”：第三方基准测试结果不佳，不如 LLaMA-3.1-70B

针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特・舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。

15 天

开源大模型的新王诞生了？号称超越GPT-4o，模型还能自动纠错

机器之心报道编辑：佳琪、蛋酱快速更迭的开源大模型领域，又出现了新王：Reflection 70B。横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。这个新模型 ...

15 天

开源大模型新王干翻GPT-4o，新技术可纠正自己幻觉，数学99.2分刷爆 ...

新模型名为 Reflection 70B ，使用一种全新训练技术，让AI学会在推理过程中纠正自己的错误和幻觉。比如最近流行的数r测试中，一开始它犯了和大多数模型一样的错误，但主动在 <反思>标签中纠正了自己。

7 天

“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试 ...

不过官方同时也表示，会给测评人员提供模型API，然后Reflection的成绩果真有了增长，但在GPQA上仍然不敌Claude 3.5 Sonnet。除了成绩有争议，还有人对Reflection中的各层进行了分析，认为它是由Llama ...

12 天

两个人，三周做出开源模型新王Reflection 70B？靠谱吗？

昨天，开源模型领域迎来一匹黑马 —— 一个名为 Reflection 70B 的模型横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1，成为开源模型新王。

15 天

性能超越GPT-4o 和 Claude 3.5 Sonnet！超强的Reflection 70B 模型登场

人工智能初创公司HyperWrite的首席执行官Matt Shumer宣布了一个重要的里程碑:他们推出了基于Meta开源Llama3.1-70B ...

11 天

号称最强模型Reflection 70B遭质疑，创始人面临 “欺诈” 指控

这款由纽约初创公司 HyperWrite 发布的模型，自称是 Meta 公司的 Llama3.1变种，曾以其在第三方测试中的优异表现引发关注。然而，随着一些测试结果的公布，Reflection70B 的声誉却开始受到挑战。

8 天

最强开源模型Reflection被质疑造假，AI测试基准不再可靠？

在快速发展的人工智能领域，模型的真实性与能力一直是备受关注的焦点。近日，一款被称为“最强开源模型”的Reflection刚发布一周便陷入了造假风波，引发了广泛的讨论。这款声明能够超越GPT-4o的70B开源大模型在第三方测试中的表现大打折扣，不仅未达 ...

13 天

HyperWrite发布创新型AI模型Reflection 70B，具备自我纠错能力

近日，AI写作初创公司HyperWrite的联合创始人兼首席执行官Matt Shumer宣布推出了一款新的大型语言模型（LLM）——Reflection 70B。这款模型基于Meta的开源Llama 3.1-70B ...

8 天

“最强开源模型”Reflection 被打假，英伟达科学家称现有测试基准已 ...

但 Reflection 刚发布两天，第三方独立测评机构 Artificial Analysis 就表示官方发布的测试成绩无法复现。在 MMLU、GPQA 和 MATH 上，Reflection 的成绩和 Llama3 70B 一样，连 Llama 3.1-70B 都比不过，更不用说 405B 了。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果