工作职责:
1.负责生命语言通用大模型研发,研究超大规模多组学数据融合技术;
2.构建生物语言基础大模型及其面向前沿科学问题、新兴生物产业和临床等领域的应用;
3.探究与疾病或复杂表型相关的跨组学分子关系,实现致病性变异预测、药物靶点识别、序列(如蛋白质)设计及二级结构推断等。
任职资格:
1.生物医学工程、计算生物学,计算机科学等相关专业硕士以上学位,博士优先;
2.精通Pytorch、Transformers等框架,精通常见Attention架构及优缺点。熟悉常见大语言模型(LLM)框架及训练策略,包括BERT,GPT,Llama 2, MoE等,精通常见token生成模型,熟悉面向生物序列数据的tokenization策略;
3.熟悉常用的位置编码策略,熟悉面向生物长序列数据的处理策略。精通LLM模型微调技术(如SFT、LoRA、qLoRA等)。熟悉融合领域知识库的模型增强技术,熟悉RAG、Agent等技术,熟悉向量数据库;
4.熟悉基因组、转录组、蛋白组等的测序原理及数据分析技术,熟悉病理影像处理方法和模型(如ViT,SAM等);
5.熟悉常见的多组学(多模态)数据融合技术,了解常用开源组学数据库及其使用。了解面向生物语言大模型的下游科学问题及应用;
6.英语读写能力强,善于团队合作,有LLM开发经验及生物信息分析背景优先。