浪潮信息元脑R1服务器展现强大性能：单机支持SGLang，DeepSeek测试突破千并发671B大关

2025-03-03 16:17:12

浪潮信息的元脑R1推理服务器已经深度适配了开源框架SGLang的最新版本，展现出强大的性能。在最新版本的SGLang 0.4.3中，元脑R1推理服务器NF5688G7能够支持超过1000路并发用户访问DeepSeek R1 671B模型，实现单机高效率运行。这款模型的特点在于其庞大的参数量（6710亿）和采用的MLA注意力机制以及混合专家（MoE）架构，这给推理服务带来了技术挑战。浪潮信息团队通过优化AI服务器和推理框架，有效应对了这些挑战。 NF5688G7内置FP8计算引擎，具备快速部署和零精度损失的能力。1128GB的HBM3e高速显存确保了在FP8精度下能满足至少800GB的需求，同时保持足够的KV缓存空间。其4.8TB/s的显存带宽特别适合处理DeepSeek R1模型的“短输入长输出”特性，提升了推理解码阶段的加速效果。此外，GPU的P2P带宽高达900GB/s，保证了张量并行通信的最佳性能。 SGLang作为一个活跃社区支持且广泛应用的开源推理框架，拥有快速后端运行时、灵活前端语言和广泛模型支持等特点。它针对MLA注意力机制进行了优化，并对MoE架构推理进行了专门设计。SGLang是DeepSeek R1早期的重要适配框架之一。经过精心的硬件调优、算子优化和多方面工程实践，元脑R1推理服务器在NF5688G7上实现了卓越性能。例如，单用户解码最高可达33 tokens/s，最大并发用户数超过1000。DeepSeek R1 671B模型在处理高并发、短输入长输出的场景中表现出色，即使在极限测试下（1024用户并发），仍能保持3975.76 tokens/s的吞吐能力。浪潮信息团队持续在计算架构、算子优化等领域投入，目标是提供高性能、高效稳定且成本效益高的DeepSeek大模型部署解决方案，推动人工智能技术的广泛应用。作为全球领先的IT基础设施供应商，浪潮信息致力于通过元脑智算产品和方案，促进AI计算平台、资源平台和算法平台的发展。