岗位职责
1. 负责设计、开发、构建和维护高性能、高可用性的分布式系统 AI 推理系统;
2. 负责持续优化系统(包括存储,网络,计算,调度等方面),不断挖掘系统潜能,提升推理算力;
3. 负责确保系统的高效、稳定、可观测、可伸缩。
任职要求
1. 熟练掌握 Linux 操作系统、设计模式、计算机网络、内存管理、多线程/进程等开发技术;
2. 精通 C/C++,Golang,Python 等主流开发语言中的一种或多种;
3. 熟悉 GPU 开发,如 CUDA、cuDNN、NCCL 等,对系统性能优化有自己的认知和方法;
4. 对新技术保持好奇心,并愿意学习和尝试新技术,对 AIGC 领域有浓厚的兴趣和极大的热情;
5. 精通 Kubernetes 或有 GPU Cloud 开发经验者优先;
6. 熟悉 TensorFlow/PyTorch, Ray/DeepSpeed/NVIDIA Megatron 等框架者优先。