岗位职责:
1.负责学院HPC/智算平台的规划、建设、运维与优化。
2.负责CPU+GPU异构计算资源、存储系统及高速互联网络的部署、配置、巡检、监控和故障处理。
3.负责作业调度系统、训练框架、推理引擎、容器环境等基础平台的部署和维护。
4.负责并行文件系统、分布式存储及集群监控告警体系建设。
5.负责AI模型训练、推理环境部署及相关应用支撑,配合科研和教学场景落地。
6.负责平台的制度规范的建设,安全管理、用户支持、培训推广。
7.完成领导交办的其他工作。
任职要求:
1.具有计算机、人工智能、科学计算、软件工程、电子信息等相关专业硕士及以上学历。
2.熟悉Linux系统,具备Shell/Python脚本能力。
3.熟悉作业调度系统(Slurm/PBS/LSF等)、容器环境及基础软件平台运维。
4.熟悉并行文件系统、分布式存储或高速互联网络(InfiniBand/RoCE)技术。
5.熟悉Prometheus、Grafana等监控工具。
6.具备良好的沟通协作能力、服务意识和责任心,能适应应急保障工作安排。
7.了解深度学习框架、模型训练与推理部署,有AI平台或大模型应用支撑经验者优先。
8.具有5年以上超算中心、智算中心或大型数据中心工作经验,2年以上团队管理经验者优先。
福利待遇:
按照上海创芯学院相关规定执行,根据个人具体情况,提供具有竞争力的薪酬、津贴和福利。
单位简介:
上海创芯学院(以下简称“学院”)定位为一所服务国家集成电路战略需求,创新芯片人才培养模式、汇聚顶尖高校、芯片设计领军企业和先进制造企业的新型研发机构。学院由复旦大学、上海交通大学和上海科技大学共同参与创建。学院将打造具有创新活力和自主独立特色的枢纽型产教融合平台。学院将作为国家创新体系中的关键“接口”,承担起体制机制探索、高端资源配置与领军人才培育的三重历史使命。学院将集中力量培养能够深刻理解工艺极限、能够通过架构创新挖掘工艺潜力、并能提出极致PPA(性能、功耗、面积)需求的芯片设计领军人才。