岗位职责:
1.客户需求分析与方案设计: 深入对接客户,理解其在AI大模型(训练/微调/推理)领域的业务目标、技术瓶颈与算力需求,主导设计满足其性能、成本与SLA要求的端到端算力解决方案。
2.技术架构规划: 设计基于GPU及国产AI芯片的异构算力池化技术架构,涵盖大规模计算集群(如千卡以上)的网络拓扑(InfiniBand/RoCE)、存储方案、资源调度与管理平台。
3.算力性能优化: 针对客户的特定模型和工作负载(如LLaMA, GPT, Diffusion, MoE等),提供集群级别的性能分析与优化建议,包括但不限于通信优化、计算瓶颈定位、混合精度策略及Kernel级调优。
4.解决方案演进: 跟踪业界技术发展趋势(如液冷、NVLink Switch, Compute Fabric等),持续迭代和优化公司整体的AI算力解决方案,确保其技术性与市场竞争力。
5.生态合作与支持: 与合作伙伴(如华为、NVIDIA、超聚变、浪潮等)紧密协作,整合最新硬件与技术,共同为客户提供联合解决方案。为销售团队和关键客户提供高级别的技术咨询和赋能。
6.方案落地保障: 协助项目交付团队,为大型算力集群的POC测试、部署和上线提供架构层面的指导与支持。
岗位要求:
1.经验: 拥有10年及以上在ICT或互联网行业,专注于算力基础设施、高性能计算(HPC)或AI集群领域的技术解决方案架构或资深工程师经验。
2.技术能力:
(1)精通GPU(NVIDIA系列)及国产AI芯片(如昇腾)的硬件架构、驱动栈及编程模型(CUDA, ROCm, CANN等)。
(2)深刻理解AI大模型的训练和推理流程,熟悉常见的分布式训练框架(如PyTorch DDP,DeepSpeed, Megatron-LM)及其通信原理。
(3)具备大规模计算集群(>100节点)的实战经验,精通高速网络技术(InfiniBand, RoCE)和拓扑设计。
(4)熟悉主流的资源调度与管理平台(如Kubernetes,Slurm, 或厂商自研平台)。
3.解决方案能力: 具备出色的客户沟通能力,能独立编写技术方案、撰写标书并进行技术宣讲。拥有优秀的逻辑分析和解决复杂问题的能力。
4.学历: 计算机科学、电子工程、通信或相关专业硕士及以上学历。