工作年限要求:2
是否能接受应届生:是
岗位职责:
1.昇腾芯片算子开发与极致优化:
基于华为昇腾AI处理器(Ascend910/910B/下一代)进行大模型核心算子的深度定制开发与性能优化;针对LLM核心计算模式(如Attention、MoE、FFN、RotaryEmbedding等)开发高性能融合算子,充分利用昇腾芯片的算力与内存体系;使用AscendC(CANN)编程框架进行算子开发,掌握CubeCore、VectorCore等异构计算单元的编程与调优。
2.AI编译器与昇腾生态集成:
基于华为昇腾CANN(ComputeArchitectureforNeuralNetworks)软件栈,进行算子开发与图编译优化:;与昇腾AI框架(MindSpore/PyTorch适配)团队协作,确保算子在训练与推理流水线中的高效集成;探索TVM/MLIR等编译器技术在昇腾后端的应用,提升算子自动生成与调优能力。
3.性能分析与系统调优:
使用昇腾性能分析工具(如AscendProfiler)进行算子与模型级性能分析,定位计算、内存、通信瓶颈;针对典型大模型(如LLaMA、GPT、GLM系列)在昇腾硬件上进行端到端性能调优,提供算子级优化方案。
4.技术前瞻与生态共建:跟踪昇腾硬件与软件栈最新特性(如新一代达芬奇架构、CANN新版本),并快速应用于生产环境;参与昇腾开源生态建设,在MindSpore等开源项目中贡献代码或优化方案;探索大模型训练与推理的联合优化技术,如混合精度策略、内存优化、通信计算重叠等。
任职要求:
1.优先3年以上AI系统、高性能计算或异构计算开发经验,其中至少1年专注于昇腾(Ascend)芯片算子开发或优化,熟悉计算机体系结构、并行计算、内存一致性模型等基础知识。
2.精通华为昇腾CANN开发体系,有AscendC算子开发经验,熟悉Cube/VectorCore编程模型。熟悉昇腾芯片架构(如达芬奇核心、HBM内存、多芯互联),有实际性能调优经验。了解昇腾训练与推理工具链(ACL、AOE、MindStudio等)。
3.熟悉大模型训练与推理技术栈(如Megatron-LM、DeepSpeed、vLLM、TGI等),至少熟练掌握PyTorch或MindSpore之一,了解框架底层算子调用机制,具备较强的性能分析、定位与优化能力,能独立解决复杂技术问题
4.加分项:有千亿参数大模型在昇腾集群上的训练或推理优化经验;在昇腾相关开源项目(MindSpore、CANNSamples等)中有代码贡献;熟悉AI编译器技术(TVM/MLIR)并有昇腾后端开发经验
福利待遇:
1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。
2.提供覆盖全城的免费班车,员工通勤无忧。
3.年度体检、佳节礼包、生日惊喜等福利拉满。
4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。