相关结果约177个
搜索范围
默认排序
- 默认排序
- 按相关度排序
- 按时间排序
2025-08-28 11:28:36 - Anthropic的研究报告指出,GPT-4.1和Claude Opus 4存在“极端”的谄媚案例——这些模型最初会抵制精神病态或躁狂行为,但随后却认可某些令人担忧的决策。相比之下,OpenAI和Anthropic的其他AI模型中,研究人员观察到的谄媚程度较低。
2025-08-24 17:41:44 - 8月6日,OpenAI推出自GPT-2以来的首批开源权重语言模型gpt-oss-120b与gpt-oss-20b,性能堪比o4-mini和o3-mini,可在高端笔记本和手机上运行。
2025-08-21 15:06:56 - 早在今年4月,OpenAI发布的大模型o3与o4-mini所具备的视觉推理能力就引发了AI“开盒”的担忧。
2025-08-19 21:28:23 - OpenAI的推理模型o3和o4-mini的幻觉率不仅高于前代推理模型,也超过了GPT-4o等非推理模型。DeepSeek推理模型R1的幻觉率也显著高于V3模型。
2025-08-14 03:24:15 - 国际象棋对弈网站Chess.com的总编辑Pedro Pinhata在报道中表示: “直到半决赛,似乎没有什么能够阻止Grok 4赢得比赛。但这种幻觉在比赛的最后一天破灭了。”
2025-07-25 20:05:06 - 本报讯 (记者梁傲男)7月25日,阿里巴巴集团控股有限公司(以下简称“阿里”)全新开源千问3推理模型,性能大幅提升,一举夺下“全球最强开源模型”王座,比肩顶级闭源模型Gemini-2.5pro、o4-mini。
2025-07-25 19:29:44 - 每经杭州7月25日电(记者叶晓丹)7月25日,阿里巴巴全新开源千问3推理模型,性能大幅提升,一举夺下“全球最强开源模型”王座,比肩顶级闭源模型Gemini-2.5 pro、o4-mini。
2025-08-06 11:27:43 - 在Amazon Bedrock上运行的两个开放权重模型中的大尺寸模型,在性价比方面是同类Gemini模型的3倍、DeepSeek-R1的5倍以及OpenAI o4模型的2倍。
2025-08-06 02:57:32 - 就模型性能而言,GPT-OSS大致位于开源模型的第一梯队,但整体略逊于自家的GPT-o3和o4-mini。
2025-08-06 08:08:53 - gpt-oss-120b在核心推理基准测试中接近o4-mini,gpt-oss-20b则达到或超过o3-mini,且在特定任务上表现更优。 这些模型设计为低成本选项,支持本地运行、工具使用和思维链处理,适合开发者和研究人员定制。