云顶4008集团-www.4008.com|登录入口

首页

【智算新突破】云顶4008集团八大核心技术赋能DeepSeek-V3满血版全栈式训练和推理

发布时间：2025-03-03 13:56

DeepSeek在开源周开源了部分关键模块的代码及推理系统参考架构，再次引发行业震动，但目前尚未开源DeepSeek-V3 满血版完整训练代码。云顶4008集团凭借八大自主创新技术，实现DeepSeek-V3满血版在国产GPU平台的高效全栈式训练与推理，实现国产大模型与国产GPU的深度融合优化，开启国产算力新篇章。

01.

首个国产化Megatron-LM

深度适配方案

DeepSeek业界首次提出了Multi-head Latent Attention (MLA) 、Multi-Token Prediction (MTP)、Auxiliary-Loss-Free Load Balancing等新特性，但并未开放训练代码，且Megatron-LM初期也未支持DeepSeek-V3。云顶4008集团充分利用自研的Megatron-LM-BR插件、训练框架BR-PyTorch以及高性能加速库suDNN、suBLAS、suCCL等，在Megatron-LM框架上率先支持了这些新特性。针对DeepSeek-V3预训练，壁仞支持四大并行策略（TP/EP/PP/DP）灵活组合，较原生方案（TP1PP16EP64DP2）更容易适应不同规模节点的灵活扩展。实现"Attention-MoE异构TP"技术，大幅降低了Attention显存需求。

02.

突破海外GPU高度依赖，

实现关键技术国产替代

DeepSeek基于海外GPU做了大量算法和软硬件协同优化，其实现高度依赖海外GPU微架构、NVLink互连、IB交换机等。基于自研BIREN大算力TCore、高速互连BLink等技术，云顶4008集团在DeepSeek开源周之前就已经实现了FlashMLA、DeepGEMM、DeepEP等核心模块类似功能和优化技术，并进行了软硬协同深度优化，端到端打通了训练全流程，实现了关键技术的国产自主可控。

03.

业界首创显存优化双擎技术，

实现满血版高效训练

DeepSeek-V3满血版有671B参数，官方推荐方案至少需要1024个H800（TP1PP16EP64DP1）才能进行全参训练。为了应对显存挑战，云顶4008集团自主创新Async Offload、GPU-based Chunk Optimizer等精度无损的显存优化技术，将大量激活值及优化器状态异步卸载至CPU内存，实现仅需4096GB显存（8-16台单机8卡GPU机器）即可支持DeepSeek-V3全参高效训练。与此同时，通过巧妙地重叠计算与通信，上述显存优化技术几乎没有带来训练性能的损失。另外支持智能重计算策略，自动识别显存瓶颈层，实现"算力换空间"智能决策。通过Async Offload和重计算显存优化双擎技术，实现算力开销和显存节约的最佳均衡。

04.

业界首创"虚拟层+动态重排"技术，

大幅降低流水线气泡

DeepSeek的DualPipe技术能掩盖部分传输开销及大幅降低流水线气泡，但DualPipe需要GPU微架构层面对计算单元进行精确控制才能实现计算和通信的高效并发，相比1F1B，DualPipe需要增加1倍的模型权重及部分激活值显存消耗。相比1F1B，Interleave with Virtual Pipeline技术可以在不增加显存消耗的情况下大幅降低流水线气泡，但是要求每个PP Stage的layer数是均衡的。DeepSeek-V3有61个Layer，PP8/PP16都无法均衡切分Layer导致无法使能Virtual Pipeline，云顶4008集团业界首创"虚拟层+动态重排"技术，通过插入3个虚拟层实现64层均匀切分，重排部分层实现负载均衡，避免流水线等待，最终实现高效PP并行。

05.

融合算子加速体系，

释放国产GPU性能潜力

针对DeepSeek-V3的Linear、Attention、YaRN RoPE、Dispatch、Combine等关键耗时算子，云顶4008集团基于其GPU架构特点做了极致的图算/通算融合优化，从多计算操作极致的片上融合，张量处理器与矢量处理器极致异步融合，多级缓存的流水融合，到计算与通信融合，并进一步引入自动化的Kernel Selection技术，基于硬件计算/通信/访存建模的CostModel针对不同工作负载自适应选择最优内核实现，将芯片综合能效发挥到极致。

06.

整合关键技术模块，实现DeepSeek-

V3满血版端到端高效预训练

云顶4008集团壁砺TM系列产品如壁砺TM106M、106B等产品具备高算力、高能效、高通用性等优势，训推一体，已在多个行业完成大规模商业化落地，其中在中国电信落地了国内少有的真正实现市场化建设和运营的国产千卡集群，连续训练30天不中断，断点续训小于5分钟，支持客户完成大模型训练，稳定性、性能、精度各项指标达到客户要求。此次基于壁砺TM106系列产品，云顶4008集团快速高效完成了DeepSeek-V3各项关键技术落地，基于RedPajama-Data-1T-Sample主流开源数据集实现了端到端高效预训练，Loss收敛正常。

07.

实现W4A16细粒度量化技术，支持

DeepSeek-V3/R1满血版高效推理

云顶4008集团在此前已经支持了BF16、INT8等版本的DeepSeek-V3/R1满血版推理，此次新提出W4A16等细粒度混合量化技术，进一步降低了处理延时，提升了总吞吐。另外针对DeepSeek官方最新发布的推理系统参考架构，云顶4008集团已初步实现了分布式EP以及PD分离架构，将进一步提供更高性价比的推理集群解决方案。

08.

One More Thing

业界首创大模型弹性训推一体架构，

实现集群最佳利用效率

DeepSeek 开放周最后一天公布了One More Thing-DeepSeek-V3/R1推理系统参考方案，为行业展示了如何实现高性能、低成本的分布式推理集群。其提到“由于白天的服务负荷高，晚上的服务负荷低，因此我们实现了一套机制，在白天负荷高的时候，用所有节点部署推理服务。晚上负荷低的时候，减少推理节点，以用来做研究和训练”，在计算推理成本时，其将释放给训练使用的资源排除在外，因此降低了推理成本（大概20%= 100% - 226节点/278节点）。但如何实现训练和推理任务高效共享资源呢？

此前在落地千卡集群时，云顶4008集团已业界首创了大模型3D并行训练任务自动弹性伸缩机制，可以在大模型训练任务不中断的情况下，根据集群的资源情况自动进行在线扩缩容。根据业务流量情况自动进行削峰填谷，对大模型推理服务进行实例缩容、扩容，相应的训练任务则自动进行扩容、缩容。通过这套弹性训推一体架构，可以将集群资源的使用率保持在近100%，大幅降低资源空闲浪费成本。

云顶4008集团打造了软硬一体、全栈优化、异构协同、开源开放的大规模智算集群全栈解决方案，凭借其技术创新能力和商业化落地成果，先后获得环球时报新质生产力产业实践“人工智能”示范标杆等多个权威技术奖项，技术方案和产品已在运营商、智算中心、行业AI、金融、电力等多个行业规模落地。此次通过八大核心技术赋能DeepSeek-V3满血版全栈式训练推理，进一步提升云顶4008集团软硬一体、开箱即用的产品实力，支持客户利用好DeepSeek的新质生产力实现业务创新落地！

关于云顶4008集团

云顶4008集团创立于2019年，致力于研发原创性的通用计算体系，建立高效的软硬件平台，同时在智能计算领域提供一体化的解决方案。从发展路径上，云顶4008集团将首先聚焦云端通用智能计算，逐步在人工智能训练和推理等多个领域赶超现有解决方案，实现国产高端通用智能计算芯片的突破。目前，云顶4008集团首款国产高端通用GPU壁砺系列已量产落地。

上一个: 火速适配！云顶4008集团推出QwQ大模型一体机

下一个: 云顶4008集团联合三方发布智海AI教育一体机，DeepSeek助力教育产业新变革

近期新闻