岗位职责:
1. 以E2E自驾为应用背景, 研究基于VLM的因果链和符号规划器的强化学习框架;
2.设计提升VLM过程推理能力的总体方案;
3.负责方案的训练评测工程实施,包括RMs,Verifiers,生成合成数据等;
任职资格:
1.计算机科学、应用数学等相关专业,硕士及以上学历;
2.NLP、RL领域有扎实的研究基础,熟悉主流多模态大模型;
3.较强的工程实现能力:熟练掌握Python,熟悉Linux开发环境,精通主流深度学习框架,了解分布式训练框架并有一定的多机多卡训练经验;
4.有高质量论文发表者优先;有高质量开源项目经验者优先;
5.具备极强的学习能力和学术追求,良好的团队沟通合作能力。
注:工作地点为北京朝阳区兆维工业园