岗位职责:
1. 参与实验室高效能分布式计算系统任务。
2. 基于新型算力中心等实验室大规模AI算力集群,参与高效能分布式计算系统优化研究,开展大模型训练过程中系统相关的技术研究,包含但不限于数据缓存、GPU显存、断点继训、AI编译等内容,提升人工智能计算系统的性能。并面向大模型训练和推理过程遇到的性能优化需求,开展机器学习系统方向的前沿技术探索,包括但不限于训推加速、数据存储系统优化、算子和编译优化、任务调度等内容,将机器学习系统的前沿技术应用到之江实验室的算力集群中。
3. 配合实验室技术开发人员,将研究成果应用到大规模算力集群中,提升大模型训练效率。
岗位要求:
1. 拥有计算机、人工智能、电子信息、信息工程等相关方向的博士学位。
2. 熟悉计算机系统结构、或模型训练和推理等相关知识。
3. 熟悉C/C++、Python等编程语言。
4. 有大模型训练和推理相关经验者优先。
5. 具有计算机系统等课题研发经历者优先。
6. 在计算机系统结构等领域发表过知名会议论文或期刊论文者优先。