工作年限要求:2
是否能接受应届生:是
岗位职责:
1.昇腾平台通信算子开发与优化:
基于华为昇腾AI处理器集群,设计并实现高性能通信算子;开发并优化大模型训练中的核心通信原语如AllReduce、AllGather、ReduceScatter、Broadcast等,特别针对梯度同步、模型参数分发场景;针对昇腾芯片的异构通信架构(片上NoC、芯片间HCCS、节点间RDMA/IB)进行通信路径优化
2.大模型分布式训练通信栈构建:构建面向千亿参数大模型训练的高效通信库,支持数据并行、模型并行、流水线并行混合场景;优化ZeRO优化器系列(ZeRO-1/2/3)在昇腾平台上的通信实现,减少显存占用同时保持通信效率;开发通信计算重叠(Overlap)机制,通过异步通信、流水线调度最大化训练吞吐
3.拓扑感知与拥塞控制:实现拓扑感知的通信算法,自动适应昇腾集群的物理拓扑(Pod内全连接、Pod间层次化);开发动态通信策略选择,根据消息大小、拓扑特征自动选择最优通信算法(Ring、Halving-Doubling、Tree等);设计拥塞控制机制,避免多流通信时的带宽争用与延迟抖动
4.通信性能分析与调优:使用昇腾通信性能分析工具(如AscendProfiler通信视图、hccl-test工具);分析大模型训练中的通信热点,定位通信瓶颈(延迟、带宽、同步开销);为典型大模型训练任务(如Qwen3训练)提供通信优化方案与最佳实践
5.软硬件协同优化:深入理解昇腾HCCS(华为集群通信服务)硬件特性,实现软硬件协同优化;优化Host-Device通信,减少PCIe数据拷贝与同步开销;参与昇腾通信库开源生态建设
任职要求:
1.优先3年以上高性能计算或分布式训练通信开发经验,其中至少1年专注于昇腾平台HCCL开发或优化,熟悉计算机体系结构和分布式系统
2.精通华为昇腾HCCL(HuaweiCollectiveCommunicationLibrary),有实际调优经验,熟悉昇腾芯片间通信架构如HCCS(片上互连)、RoCE、InfiniBand,了解昇腾多机多卡训练通信配置与性能调优方法
3.熟悉主流通信库实现原理(如NCCL、MPI、OpenMPI),了解Ring-AllReduce、Double-Binary-Tree等算法,熟练掌握昇腾等性能分析工具,能够独立分析复杂通信问题(如死锁、性能抖动、带宽不达标)
4.加分项:有千亿参数大模型在昇腾集群上训练,并主导通信优化经验;在开源通信库(NCCL、OpenMPI、UCX)中有代码贡献;有通信协议栈开发经验(如自定义可靠传输协议、拥塞控制算法)
福利待遇:
1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。
2.提供覆盖全城的免费班车,员工通勤无忧。
3.年度体检、佳节礼包、生日惊喜等福利拉满。
4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。