English
当前您的位置: 当前位置: 首页 > 新闻动态 > 正文

我们孟晴开老师团队在网络与系统领域顶会再创佳绩,首投即中!

发布日期:2025-07-16 浏览量:

SIGCOMM作为计算机网络系统领域历史最为悠久也最为权威的学术会议,SIGCOMM以其严苛的标准著称,对论文的质量要求极高,要求所录用的论文具有基础性贡献、领导性影响和坚实系统背景。

NSDI 是 USENIX 协会在网络系统设计和实现领域的顶会之一,与 SIGCOMM 并列为全球计算机科学专业顶级学术会议列表CSRankings收录的计算机网络领域两大国际顶级学术会议,具备极高的学会价值和影响力。NSDI 2025 Fall共有401篇投稿,录用55篇,录取率13.7% 。

[SIGCOMM 2025] Qingkai Meng, Hao Zheng, Zhenhui Zhang, ChonLam Lao, Chengyuan Huang, Baojia Li, Ziyuan Zhu, Hao Lu, Weizhen Dang, Zitong Lin, Weifeng Zhang, Lingfeng Liu, Yuanyuan Gong, Chunzhi He, Xiaoyuan Hu, Yinben Xia, Xiang Li, Zekun He, Yachen Wang, Xianneng Zou, Kun Yang, Gianni Antichi, Guihai Chen, Chen Tian, “Astral: A Datacenter Infrastructure for Large Language Model Training at Scale”

当前,大模型参数从百亿进化到万亿级,底层训练需要超大规模 GPU 集群。但国内GPU资源紧张和性能掣肘,传统数据中心在网络架构和高密度部署上存在短板,以及大规模集群中软硬件故障多和定位难等问题,都对超大规模高性能算力集群建设和维护带来了不小挑战。

为应对上述问题,研究团队推出了Astral网络基础设施方案。该方案在网络架构、硬件、集群监控、性能预测等层面进行了系统性创新,旨在为大模型训练与推理系统提供坚实支撑。

Astral基础设施架构

网络架构层,Astral提出了同轨互联架构,让同机柜的 GPU 优先在同Pod内直连通信,减少跨 Pod 通信中的性能损耗;同时,Astral支持单Pod 6.4万块 GPU互联,全集群51.2万块 GPU组网。在网络设计上,Astral采用带宽无瓶颈思路,每一层网络带宽都100%匹配GPU需求

Astral组网架构

针对AI算力集群故障问题,Astral打造智能监控系统给数据中心安装“全身CT",实现从硬件到软件全监控,能将集群故障定位从几天缩短到几分钟

Astral监控系统

同时,Astral赋能性能预测框架,能够秒级生成每个算子的执行时间,结合实际监控数据校准,能够保持极小的性能预测误差,帮助工程师提前发现瓶颈。

Astral性能预测框架

Astral经过腾讯实际部署检验,在提升训练效率、降低故障定位时间和提高能源效率方面都表现出色。目前,Astral基础设施也已经支持了腾讯混元、腾讯元宝、腾讯ima等腾讯自研业务,也服务了大量的产业客户。

[NSDI 2025] Zhongjie Chen, Qingkai Meng, ChonLam Lao, Yifan Liu, Fengyuan Ren, Minlan Yu, and Yang Zhou, “eTran: Extensible Kernel Transport with eBPF”

当前数据中心应用日益多样,如RPC微服务、存储、机器学习等对传输协议提出灵活定制与高性能的需求。然而,现有用户态协议栈和硬件加速方案分别在内核级安全与灵活定制方面存在明显不足,传统内核传输协议又受限于可扩展性与维护成本,难以支撑快速演进的应用场景。

为此,研究团队设计了基于eBPF的传输协议栈eTran,兼具灵活定制、高性能以及内核级安全等关键属性。

eTran系统架构

功能设计:(1)利用eBPF现有机制(如eBPF maps、BPF timer、XDP)实现高效数据包处理。(2)通过新增 eBPF hooks 和 maps 支持复杂传输功能,同时确保通过 eBPF verifier 的安全检查。(3)支持如流控、快速重传等操作在eBPF中实现,提升效率并保障内核态安全。

工作特色:(1)接近用户态传输协议的性能,得益于数据包直达用户空间,避免内核到用户空间的数据拷贝;轻量级缓存管理和免系统调用的IO批处理;精简传输实现,同时保持通用性。(2)传输逻辑完全在内核中执行,与应用隔离,传输状态由eBPF机制保护,不可被不可信库访问,增强安全性。

苏州校区

地址:苏州市太湖大道 1520 号

邮编:215163    邮箱:ise@nju.edu.cn

版权所有:必威(betway·西汉姆联)官方网站-Global PlatformCopyright © All Rights Reserverd

网站制作:必威西汉姆联官网