相关结果约37个
v0o.me相关信息
2025-06-11 07:52:17 - 根据OpenAI内部测试,o3-pro在数学基准测试AIME 2024中超越谷歌Gemini 2.5 Pro,在博士级科学测试GPQA Diamond中击败Anthropic Claude 4 Opus,展现出推理模型领域的领先性能。
2025-06-15 09:43:07 - 根据OpenAI内部测试,o3-pro在数学基准测试AIME 2024中超越谷歌最强的模型Gemini 2.5 Pro,在博士级科学测试GPQA Diamond中击败Anthropic最强的Claude 4 Opus。
2025-04-21 07:56:20 - 作为OpenAI目前最强的推理模型,o3在Codeforces、SWE-bench和MMMU等基准测试中创下了新的 SOTA;o4-mini 则是经济高效的小型模型,尤其在数学、编程和视觉任务方面表现较好,在AIME 2024和2025,以及Codeforces基准测试中表现甚至超过
2025-04-17 12:55:52 - 本周OpenAI还在API中引入GPT-4.1系列模型,GPT-4.1的性能超过GPT-4o。随着GPT-4.1推出,OpenAI准备弃用今年2月刚面世的GPT-4.5预览版。
2025-04-17 09:15:07 - 据最新测试结果,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%,在Codeforces编程竞赛评分中,o3和o4-mini分别取得了2706和2719的ELO分数,显示出在复杂数学与代码任务中的强大推理与执行能力。
2025-04-17 07:34:25 - 据最新测试结果,o3和o4-mini(无工具版本)在AIME 2024数学竞赛题目中的准确率分别达91.6%和93.4%,在Codeforces编程竞赛评分中,o3和o4-mini分别取得了2706和2719的ELO分数,显示出在复杂数学与代码任务中的强大推理与执行能力。
2025-04-17 12:24:56 - 此外,在外部专家的评估中,o3在困难的现实任务中比OpenAIo1犯的重大错误少20%,尤其是在编程、商业/咨询和创意构思等领域表现出色。o4-mini作为一款体型更小的模型,则以其尺寸和成本实现了卓越的性能,是AIME2024和2025基准测试中表现最佳的模型。
2025-04-17 10:05:45 - 根据OpenAI公布的测试数据显示,o4-mini在AIME 2024和2025中,分别达到了93.4%和92.7%,比满血版o3还强,成为目前准确率最高的模型;在Codeforces测试中达到了2700分,成为全球前200名最强程序员。
2025-04-09 08:06:59 - 该模型只有140亿参数,但在知名代码测试平台LiveCodeBench的测试分为60.6%,高于OpenAI的o1模型(59.5%),略低于o3-mini(60.9%)。在Codeforces、AIME2024上的评测数据同样非常出色,几乎与o1、o3-mini差不多。
12>   跳转