岗位职责:
1.面向华为昇腾AI大模型和业内主流商业大模型,完成大模型训练框架、推理框架等基础软件能力的开发与构建;
2.实现大模型在MindSpore上的快速部署,降低大模型推理的成本与时延,解决超大规模、长序列、多模态等模型特征与分布式集群、多级互联、特定硬件架构等计算平台特征的匹配问题;
3.负责大规模语言模型的数据工程、预训练等算法研究,提升模型在业务场景下的各项效率和质量。
4.负责大模型微调,包括prompt设计、SFT、RW、RLHF、可控内容生成等大模型优化策略.
5.进行大模型与对话系统的算法研究,提升对话理解和回复能力。熟悉NLP主流大模型,如deepseek/ChatGPT/ LLaMA等,对模型背后的原理和差异有一定的理解。
任职要求:
1.计算机、数学、人工智能、自动化、软件等相关专业,具备以下任一方向研究经验:AI计算框架、AI大模型、算子开发与优化、模型压缩、AI编译器、图编译与算子编译等;
2.熟悉Linux系统,至少精通C++/C/Python中的一种语言。编码能力突出,具有扎实的工程实现能力。
3.熟悉华为昇腾AI大模型在MindSpore上的快速部署,有相关经验者优先。
4.熟悉deepseek、LLaMA、Bloom等业界开源大模型,有算法开发和应用经验者优先。
5. 熟悉DeepSpeed、Megatron、vLLM、TensorRT-LLM、FasterTransformer等分布式训练推理框架,有相关经验者优先。