岗位职责:
1. 推进适用于具身智能的多模态大模型研究,实现文本、图像、音频和视频的无缝集成与推理。
2.开发具备复杂任务计划、自我批判、迭代优化结论能力的自反思智能体推理框架。
3.开展开创性研究,将视觉推理能力从传统二维图像扩展到三维空间,构建连贯的三维世界表示。
4. 定义长期模型架构愿景,开发低延迟、流式友好的神经模型,支持具身产品在物理世界中的实时交互。
任职要求:
1. 计算机科学、人工智能或相关领域博士学位,在多模态大语言模型、视觉-语言-动作模型方面拥有顶级会议/期刊出版记录。
2.在大型语言模型、Transformer架构和大规模模型训练框架(如PyTorch, Jax)方面具备卓越的工程实现能力。
3.深刻理解将抽象语言指令转化为物理世界中长期、复杂、物理可行动作序列的挑战。