微信
关注官方微信
手机版
机床工业网  >  机床资讯 > 正文

浪潮信息元脑R1服务器展现强大性能:单机支持SGLang,DeepSeek测试突破千并发671B大关

浪潮信息的元脑R1推理服务器已经深度适配了开源框架SGLang的最新版本,展现出强大的性能。在最新版本的SGLang 0.4.3中,元脑R1推理服务器NF5688G7能够支持超过1000路并发用户访问DeepSeek R1 671B模型,实现单机高效率运行。这款模型的特点在于其庞大的参数量(6710亿)和采用的MLA注意力机制以及混合专家(MoE)架构,这给推理服务带来了技术挑战。浪潮信息团队通过优化AI服务器和推理框架,有效应对了这些挑战。 NF5688G7内置FP8计算引擎,具备快速部署和零精度损失的能力。1128GB的HBM3e高速显存确保了在FP8精度下能满足至少800GB的需求,同时保持足够的KV缓存空间。其4.8TB/s的显存带宽特别适合处理DeepSeek R1模型的“短输入长输出”特性,提升了推理解码阶段的加速效果。此外,GPU的P2P带宽高达900GB/s,保证了张量并行通信的最佳性能。 SGLang作为一个活跃社区支持且广泛应用的开源推理框架,拥有快速后端运行时、灵活前端语言和广泛模型支持等特点。它针对MLA注意力机制进行了优化,并对MoE架构推理进行了专门设计。SGLang是DeepSeek R1早期的重要适配框架之一。 经过精心的硬件调优、算子优化和多方面工程实践,元脑R1推理服务器在NF5688G7上实现了卓越性能。例如,单用户解码最高可达33 tokens/s,最大并发用户数超过1000。DeepSeek R1 671B模型在处理高并发、短输入长输出的场景中表现出色,即使在极限测试下(1024用户并发),仍能保持3975.76 tokens/s的吞吐能力。 浪潮信息团队持续在计算架构、算子优化等领域投入,目标是提供高性能、高效稳定且成本效益高的DeepSeek大模型部署解决方案,推动人工智能技术的广泛应用。作为全球领先的IT基础设施供应商,浪潮信息致力于通过元脑智算产品和方案,促进AI计算平台、资源平台和算法平台的发展。

编辑:Jcgycom
返回顶部