所属栏目:计算机网络论文范文发布时间:2025-06-23浏览量:594
随着大型语言模型(LLM)训练需求激增,对数据中心网络架构的稳定性与性能提出更高挑战。杭州阿里云飞天信息技术有限公司钱坤、翟恩南、操佳敏团队在《中兴通讯技术》2024 年第 06 期发表《HPN:阿里云大模型训练网络架构》论文,揭秘阿里云高性能网络(HPN)架构。

论文介绍,HPN 采用双上联、多轨、双平面的创新网络架构设计,有效规避单链路故障引发的连通性危机,同时解决哈希极化难题。经实验验证,HPN 使 LLM 训练的端到端性能提升超 14.9%。值得关注的是,该架构已在阿里生产环境稳定部署超 1 年,展现出强大的实践可靠性与技术成熟度。
此次研究成果为大模型训练的网络架构优化提供了新思路,或将推动行业在数据中心网络技术上的进一步革新 。该研究获得国家自然科学基金项目(92367104)支持,已获得676次CNKI下载和7次网刊阅读,在学术界引发广泛讨论。论文提出的技术框架为算力网络智能化发展提供了新的研究思路和实践路径。