相关结果约37个
1ep.kr相关信息
2025-03-01 21:38:09 - DeepSeek-V3/R1模型具有这种高稀疏性结构,使得大规模跨节点专家并行(Expert Parallelism,EP)至为重要。首先EP大大增加了batch size(一次模型训练中使用的样本数量),从而提高GPU矩阵乘法的效率,提高吞吐。
2025-03-04 10:48:26 - GPT-4.5在回应前不会进行思考,这使得它的优势与推理模型(如OpenAIo1)截然不同。与OpenAIo1和OpenAIo3-mini相比,GPT-4.5是一个更通用、内在更智能的模型。
2025-03-04 17:31:50 - 王伟称,以DeepSeek开源项目中涉及到的EP(Expert Parallelism,专家并行)技术为例,过去除了少数头部公司有能力实现,多数企业是享受不到EP加速的,只能以较低的效率进行推理。 “但DeepSeek开源后,这一情况有望很快得到改善。
2025-03-02 08:30:22 - 为此DeepSeek的方案是使用大规模跨节点专家并行(Expert Parallelism /EP),每个GPU只需要计算很少的专家(因此更少的访存需求),从而降低延迟。 最近一周,DeepSeek除了在X上发布了成本等消息,也同步在国内知乎平台上发布了推理系统概览全文。
2025-02-28 23:58:29 - 第二天被开源的是DeepEP,这是首个用于MoE(混合专家)模型训练和推理的开源EP(expert parallelism,专家并行)通信库,主要适用于大模型训练,特别是需要EP的集群训练。
2025-02-28 23:51:26 - 2月26日,DeepSeek宣布了错峰价格制度,DeepSeek-R1在高峰期每百万Tokens输出价格为2.19美元(约合人民币15.9元),低谷期的价格仅为0.55美元 (约合人民币4元)。以低谷期的价格计算,GPT-4.5的价格是DeepSeek-R1的近270倍。
2025-03-02 08:36:18 - 文章披露了DeepSeek-V3/R1推理系统采用大规模跨节点专家并行(EP)技术来实现更大的吞吐和更低的延迟。为提升整个系统效率和GPU利用率,DeepSeek尽可能地为每个GPU分配均衡的计算负载、通信负载。文章还披露了DeepSeek的成本、利润等关键信息。
2025-03-01 18:30:51 - 在宣布后的约20分钟内,DeepEP已在GitHub、微软(MSFT.US)等平台上获得超过1000个Star收藏。
2025-02-27 14:42:04 - 首个开源的代码库为针对Hopper GPU优化的FlashMLA,第二日是首个用于MoE模型训练和推理的开源EP通信库DeepEP,26日则开源了一个支持密集和MoE GEMM的FP8 GEMM 库,为V3/R1训练和推理提供支持。
2025-03-01 16:40:57 - 为了实现这两个目标,DeepSeek使用了大规模跨节点专家并行(Expert Parallelism / EP)的方法,并通过一系列技术策略,最大程度地优化了大模型推理系统,实现了惊人的性能和效率。