职位描述:
纳管英伟达与华为异构显卡,搭建可租赁、可隔离的开发环境平台。
工作职责:
1. 异构集群调度:搭建算力调度底座,实现对 NVIDIA GPU 和 华为 Ascend NPU 的统一纳管与资源池化。
2.开发算力平台的核心业务模块,包括用户注册、鉴权、订单计费、资源配额管理等。
3. 虚拟环境构建:实现容器化开发环境的自动交付,确保用户下单后能快速获得独立的 SSH 访问权限、JupyterLab 环境或 VSCode Server 环境。
任职要求:
1. 开发语言:熟练掌握Python,具备扎实的后端开发能力。
2. 虚拟化技术:熟悉 Docker/Containerd 容器技术,了解如何透传 GPU/NPU 设备到容器内部。
3. 全栈能力:具备一定的系统运维能力(Linux、网络配置、存储挂载),能独立排查环境连接问题。
加分项:
1.云原生技术:精通 Kubernetes 生态,熟悉 Device Plugin(特别是 NVIDIA 和 Ascend 的插件机制),有 K8s Operator 或 CRD 开发经验者极佳。
2.有 OpenStack、Slurm 使用经验