阿里云数据中心网络关键技术获中国电子学会技术发明一等奖

潮新闻客户端 记者 张云山

近日,中国电子学会正式颁发“2024 年中国电子学会科学技术奖”,由阿里云联合清华大学、中国移动(苏州)软件技术有限公司共同申报的 “性能可预期的大规模数据中心网络关键技术与应用” 项目荣获中国电子学会技术发明一等奖。

阿里云数据中心网络关键技术获中国电子学会技术发明一等奖

以院士专家组成的鉴定委员会认为:“该项目技术复杂,创新性强,具有完全自主知识产权,整体技术处于国际领先水平”。

针对数据中心网络面临流量负载不均匀、易拥塞、用户之间带宽干扰大、突发流量尾部延时高、网络故障反应速度慢等传统局限,该项目充分利用数据中心网络设备可编程等特性,采取端网融合的新型网络架构,包括高性能网络通信库、RDMA多路径网络传输、精细化拥塞控制等,实现了性能可预期的数据中心网络,显著提升了数据中心网络的服务质量保障能力。

(图:阿里云端网融合的性能可预期网络架构)

项目的核心发明在于把传统数据中心网络从服务器和交换机网络的“端网解耦设计”变成了“端网协同融合”,将网络性能在带宽、延迟以及故障发生时的恢复进行了“可预期”创新,分别实现了用户高带宽从“无法保障”到“严格保障”的突破;实现了突发流量控制效果从“时延无界”到“时延有界”的突破;实现了流量恢复时长效果从“秒级别恢复”到“毫秒级别恢复”的突破。

阿里云智能研发副总裁、基础网络负责人蔡德忠表示,“传统云计算中,每个网络数据包传输就好比是坐出租车去火车站,只要尽力而为抵达即可,但AI时代,智能算力及高性能存储等服务对网络带宽、延迟要求会非常高,需要确保大带宽和‘可预期’时间必须到达,如同需要开发“地铁”的能力来替代出租车一样。”

据悉,性能可预期网络的成果在面向阿里云块存储产品应用中,将网络尾部时延降低了50%,帮助阿里云PAI-灵骏产品把智算万卡集群有效算力提升到了98%。

阿里云数据中心网络关键技术获中国电子学会技术发明一等奖

目前,“性能可预期的大规模数据中心网络关键技术与应用”项目成果已产出共计36篇国际顶级会议如 SIGCOMM、NSDI 等会议论文,并通过应用在阿里云计算平台,支撑政务、教育、医疗、交通、农业、电子商务等重要行业应用,保障了 2022 北京冬奥直播 、“双十一”购物节、“云端抗疫”等重大社会活动的网络性能和稳定性。

“转载请注明出处”