华为昇腾、阿里平头哥、沐曦、壁仞：四大国产GPU可以在一起了！

快科𽤃񀙘日消息，上海人工智能实验室（上海AI实验室）官方宣布，基于此前的DeepLink混训技术方案、跨千公里多智算中心长稳混训千亿参数大模型，正式推出DeepLink多元算力混合推理加速方案，实现了对华为昇腾、沐曦、阿里平头哥、壁仞等多款国产GPU芯片的混合调度与协同推理。

据悉，DeepLink混推方案基于统一推理中间件、低时延通信、智能流量路由、策略求解器等原创技术，不仅可对多款芯片混合调度与协同推理，性能也大幅提升，对比单一芯片方案，推理时延TTFT最大可优�.5％，推理吞吐最大可提�％。

近些年，国产AI GPU如雨后春笋，性能越来越强，但一方面都是各自为战，另一方面大模型推理技术也需要深入优化和提升。

上海AI实验室在国产GPU异构算力中，运用了预填充-解码分离（PD分离）策略，验证了混合芯片高效协同推理的路径。

同一数据中心内不同规格属性的GPU芯片组合优化使用，可以形成最具性价比的异构算力配比。

具体实现上，上海AI实验室通过四大原创技术底座，实现了对异构算力资源的兼容调度。

推理中间件（DLInfer）：

以标准化融合算子接口打通上层框架与底层硬件壁垒，实现算法模型在多元硬件上的统一推理，降低应用门槛。

高速通信库（DLSlime）：

全面兼容各类主流物理连接协议，实现跨架构设备高速互联，核心场景带宽利用率突�％；具有较强的异步处理能力，可实现计算与通信的重叠。

智能流量路由系统（DLRouter）：

支持KVCache感知的请求路由，最大限度减少重复或重叠请求，节省计算资源，实现分布式集群负载均衡分配。

策略求解器（DLSolver）：

自动获取异构芯片全方位评测数据，结合模型配置以及用户服务等级目标等输入，匹配最优PD分离配置策略，兼顾推理性能与成本。

单一算力平台推理加速方面，可以实现在华为昇腾A2上，针对千卡规模下的化学数据生成场景，吞吐率提�.9％；在沐曦曦云C500上，MinerU多模态生成推理加�％。

多款国产GPU芯片的深度混合调度与协同推理方面，千卡规模推理集群实测数据表明，在多模态生成、高并发智能服务等典型场景下，比单芯片方案推理时延TTFT最大可优�.5％；

在科学论文处理等长输入短输出推理任务中，推理吞吐可提�％。

值得一提的是，除了以上四家，寒武纪、燧原科技、天数智芯、无问芯穹、商汤科技、中科曙光等也都是上海AI实验室和DeepLink技术方案的合作伙伴。

相信会看到越来越多的国产GPU并肩战斗！

DeepLink官网：https://deeplink.org.cn/home

DeepLink Github：https://github.com/DeepLink-org

DLInfer仓库：https://github.com/DeepLink-org/dlinfer

DLSlime仓库：https://github.com/DeepLink-org/DLSlime

DeepLink合作伙伴

【纠错】【责任编辑:恶魔仙武同修我】