工作年限要求:2
是否能接受应届生:是
岗位职责:
1.负责大模型系统架构创新与性能优化,研究分布式训练框架(Megatron-LM、DeepSpeed、Colossal-AI等),设计模型并行、流水线并行、MoE、长上下文、RL训推一体等高效扩展方案,提升千亿级大模型训练效率与稳定性。
2.开展大模型推理与工程化研究,优化低延迟、高吞吐推理体系(动态批处理、KVCache、量化、模型压缩、动态加载等),搭建轻量化部署、服务化框架与高效微调工具链,支持边缘与云端场景落地。
3.深耕软硬件协同设计,针对GPU、国产算力芯片(昇腾、寒武纪等)及RDMA等硬件特性进行深度适配与调度优化,攻克显存瓶颈、通信开销、算子/编译优化等关键工程问题。
4.探索前沿系统技术方向,包括稀疏化训练、低精度计算、绿色AI、多模态大模型系统等,并推动技术方案工程化落地。
5.开展高水平学术研究与产学研合作,在系统/ML顶会发表论文,参与开源社区建设,联合产业伙伴推进技术成果转化与应用落地。
任职要求:
1.熟练掌握PyTorch/TensorFlow等主流深度学习框架,熟悉大模型训练、调试与推理部署全流程,具备分布式训练实战经验。
2.深入理解Transformer、RLHF、推理加速等大模型核心技术,掌握CUDA/MPI/NCCL/RDMA等并行与分布式技术,或熟悉TVM/XLA/LLVM等编译优化、高性能计算(HPC)原理。
3.具备系统开发能力,熟悉C++/Rust等高性能编程语言,有大型AI系统或底层优化相关开发经验。
4.在MLSys/OSDI/PPoPP/NeurIPS/ICML等系统或AI顶会发表论文者优先。
优先条件:
1.参与过Megatron-LM、ColossalAI、vLLM、Verl等主流开源项目并具备代码贡献;
2.熟悉模型量化、蒸馏、剪枝等LLM压缩技术,或具备Triton算子、芯片级优化、国产芯片适配经验;
3.有云厂商大规模AI系统部署、主导开源项目或核心专利成果;
4.国际顶级编程/AI竞赛获奖。
福利待遇:
1.提供具有竞争力的薪酬待遇和福利,特别优秀者可一人一议。
2.提供覆盖全城的免费班车,员工通勤无忧。
3.年度体检、佳节礼包、生日惊喜等福利拉满。
4.子女入学、提供香港中文大学(深圳)附属幼儿园、小学、初中。