任职要求:
岗位职责:1.大模型研发与迭代:负责语言大模型(LLM)或多模态大模型(VLM)的预训练、微调(SFT/RLHF/DPO)、对齐(Alignment)及性能优化,提升模型在指令遵循、推理、代码生成等任务的表现。
2.探索模型架构创新,包括MoE(混合专家)、长上下文(LongContext)、ScalingLaw等前沿方向,推动训练效率与效果突破。
3.前沿技术研究与应用:跟踪并复现LLM/VLM领域顶会成果(如CVPR、NeurIPS、ICLR等),主导开源项目贡献,发表高水平论文或专利。
4.研发多模态对齐、视频-语音交互、Agent规划等关键技术,构建跨模态理解与生成能力。
5.数据与训练流程优化:设计数据配比策略,构建高质量训练数据集,研究数据增强、合成及清洗方法,推动Data-Centric闭环。优化从数据生产到模型训练的全流程,熟悉Deepspeed、Megatron等分布式训练框架。
6.模型评测与落地支持:开发评测工具与平台,设计细粒度评估指标,分析模型异常表现并提出改进方案。
7.参与技术成果转化,支持智能客服、内容生成、智能体(Agent)等业务场景落地。
任职要求
1.教育背景:博士,计算机科学、人工智能、数学等相关专业。
2.技术能力:熟练掌握PyTorch/TensorFlow框架,具备CUDA优化或大模型训练经验者优先。
3.扎实的算法基础,熟悉Transformer架构、强化学习(RLHF/RLAIF)及多模态融合技术。
4.科研与实践经验:以第一作者在顶会(ACL、CVPR等)发表论文,或在国际竞赛(Kaggle、KDDCup等)中取得前5%排名者优先。
5.具备大模型训练、开源项目贡献、智能体系统开发等经验者优先。
6.综合素质:目标导向,具备独立科研能力与创新思维,能快速定位技术瓶颈并提出解决方案。
7.优秀的英文读写能力,擅长跨团队协作,适应快节奏研发环境。
研究方向:
计算机科学、人工智能、数学等相关专业