岗位职责:
1.负责LLM大语言模型全生命周期的研发工作;
2.参与LLM大模型的分布式训练与优化,具备智算集群(GPU/NPU集群)的实战经验;
3.探索前沿技术落地,主导RAG增强检索、智能体(Agent)系统开发、多模态大模型融合等创新方向;
4.构建模型评估体系,设计自动化评估pipeline,制定性能优化方案;
5.实时跟踪业界,探索前沿技术,针对算法落地遇到的问题提出解决方案。
任职要求:
1.本科及以上学历,3年以上NLP/LLM领域实战经验,完整参与过亿级参数模型的数据整合、预训练、微调、部署全流程;
2.精通Transformer架构及各类改进变体,深入理解Attention机制、位置编码等核心模块;
3.掌握分布式训练核心技术栈,熟练使用NCCL、RDMA网络通信,具备多节点多卡训练故障排查经验,熟悉ZeRO优化、梯度检查点等显存优化技术;
4.拥有LLM大模型全生命周期的数据工程能力;
5.熟练掌握PyTorch和HuggingFace生态,熟悉DeepSpeed、Megatron等分布式训练框架、熟悉vLLM/TensorRT-LLM等推理加速框架,掌握Prometheus+Grafana等算力监控方案;
6.良好的英文文献阅读能力和算法专利编写能力;
7.有超大规模智算集群实操相关经验者优先;
8.对技术有浓厚的兴趣,责任感强,有较好的交流沟通能力和团队合作能力。