相关结果约32个
rl.pw相关信息
2025-04-05 10:09:42 - 公司核心技术基于Model-based RL+Manipulation路线。本轮融资将用于技术研发和团队建设。 元鼎智能完成近10亿元融资 近日,无线泳池机器人公司元鼎智能宣布完成新一轮近10亿人民币的战略融资。
2025-04-04 07:05:48 - 据悉,智谱将于4月14日开源推理模型GLM-Z1-Air和基座模型GLM-4-Air0414,并于近期陆续上线bigmodel.cn。上述模型是智谱新推出的AI Agent“沉思”背后的模型。
2025-03-11 09:25:12 - 此外,阿里云计划将更强大的基础模型与依托规模化计算资源的RL相结合,从而使其更接近实现人工通用智能(AGI)。 2.随着算力芯片国产替代的持续推进,数据中心价值链有望整体向中国企业转移。
2025-03-06 10:38:15 - 阿里巴巴-W(09988.HK)再上大分,该公司正式发布新一代推理模型QwQ-32B,该模型以320亿参数的"轻量级"架构,在多项核心指标上超越6710亿参数的行业标杆DeepSeek-R1,引发资本市场对阿里AI生态价值的重估。
2025-03-12 17:02:55 - 此外,阿里云计划将更强大的基础模型与依托规模化计算资源的RL相结合,从而使其更接近实现人工通用智能(AGI)。 此外,中国团队Monica.im发布全球首款AI代理产品——Manus。
2025-03-12 16:49:26 - 此外,阿里云计划将更强大的基础模型与依托规模化计算资源的RL相结合,从而使其更接近实现人工通用智能(AGI)。 此外,中国团队Monica.im发布全球首款AI代理产品——Manus。
2025-03-07 09:06:58 - 除此以外,据01Founder分析,其技术架构可能还包含专用RL小模型(基于通义千问Qwen)和自研工具包生态。 该人士认为,专用RL小模型负责系统中最关键的决策环节:意图识别、任务规划和工具调用。
2025-03-07 14:04:52 - 除此以外,据01Founder分析,其技术架构可能还包含专用RL小模型(基于通义千问Qwen)和自研工具包生态。 该人士认为,专用RL小模型负责系统中最关键的决策环节:意图识别、任务规划和工具调用。
2025-02-28 13:45:41 - 此前DeepSeek在R1论文中提到,R1的性能将在下一个版本得到改善,因为相关的RL(强化学习)训练数据还很少。随着RL数据的增加,模型解决复杂推理任务的能力持续稳定提升,且会自然涌现出一些复杂行为能力。
2025-02-24 07:06:26 - 2024年11月,宇树科技开源了人形机器人G1的操作数据集,涵盖拧瓶盖、倒水、叠色块等五大任务,包含640x480分辨率图像及七维机械臂状态数据,通过HuggingFace LeRobot框架实现快速部署;2024年12月,宇树科技宣布全面开源机器人训练代码,包括强化学习(RL)训练框架及