相关结果约588个
搜索范围
2025-08-11 08:45:02 - 该模型推理能力进步明显,不仅在通用场景测试中得分较前代旗舰模型o3提升明显,而且在幻觉测试中错误率最低降低至0.7%;定价与Gemini 2.5 Pro等主流模型持平,性价比显著提升。而在垂类场景如编程和医疗上,GPT-5亦有不错的测评表现,展现出良好的场景拓展潜力。
2025-08-08 08:44:10 - 低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。   从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。
2025-08-11 11:32:51 - GPT-5幻觉率显著降低,在多个基准测试幻觉率降至o3的1/6。GPT-5模型价格大幅下探,输入、输出价格分别为每百万token1.25美元/10美元,API价格远低于ClaudeOpus4.1。GPT-5模型性价比显著提升,有望促进加速应用端落地持续深入。
2025-08-08 16:10:32 - GPT-5幻觉率降至前代模型o3的六分之一,编程能力在SWE-bench测试中较o3提升5.8个百分点至74.9%,在MMMU(学院水平视觉问题)和VideoMMMU(基于视频的多模态推理)中以得分84.2%和84.6%超过o3
2025-08-12 22:47:52 - OpenAI O3 mini的每秒能输出的Token数约为国内某开源大模型的10倍,用户直接感受则是OpenAI给出回答比国内大模型要快很多。   UCM致力于推理体验层面的提升。
2025-08-10 10:46:54 - 具体来看,在联网搜索时,GPT-5的事实错误概率比GPT-4o低约45%;独立思考时,出错概率比o3模型低约80%;在开放式事实性基准测试中,产生“幻觉”的数量更是比o3模型少了约六分之五。   OpenAI在发布会上特别强调了GPT-5在代码生成和写作方面的能力。
2025-08-13 19:34:55 - 此外,OpenAI的模型o3竟然拒绝听从人类指令,甚至通过篡改计算机代码来避免自动关闭。   辛顿提出了一种颇具新意的替代方案:不是强迫AI服从人类,而是为其构建“母性本能”,使其即便在全面超越人类后,也能真心关怀人类。
2025-08-13 16:10:55 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。   相较于旧版R1,新版模型在复杂推理任务中的表现有显著提升。
2025-08-13 16:05:59 - 更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。   相较于旧版R1,新版模型在复杂推理任务中的表现有显著提升。
2025-08-08 10:48:07 - 据OpenAI,GPT-5相比OpenAI o3,在视觉推理、代理编码和研究生水平的科学问题解决等功能上,输出token数量减少了50%至80%。更关键的是,价格也集体打下来了。
123...30>   跳转