OpenAI最强AI模型竟成“大忽悠”!o3/o4-mini被曝聪明过头、结果幻觉频发?

在我们的 PersonQA 评估中,o4-mini 模型的表现不如 o1 和 o3。具体来说,o3 总体上倾向于做出更多的断言——这既包括更准确的断言,也包括更多不准确/幻觉的断言。我甚至可以说,要是在代码库里用它会非常危险,它可能会严重破坏你的代码,并让你认为那些修改是重要和正确的。“我们的假设是,用于 o 系列模型的强化学习方式,可能会放大一些通常可以通过标准的训练后流程缓解(但无法完全消除)的问题。o3 优越的编码效率,一边又不得不建立专门的“链接验证”流程,为每个生成的链接“验明正身”