资格条件:
1.必备经验:
(1)计算机科学、生物信息或相关专业硕士及以上学历;
(2)5年以上数据库领域深耕经验,其中至少2年作为核心角色处理TB/PB级数据系统;
(3)具备从零到一设计或长期维护大型生物医学数据库的经验;
2.核心技术能力:
(1)精通关系型数据库系统(PostgreSQL / SQL Server / MySQL),具备复杂模式设计与性能优化经验;
(2)精通至少一种脚本或系统语言(Python / C++ / Perl 等),用于构建数据库流水线与算法模块。
岗位职责:
1.数据库架构设计与规划:
(1)主导设计并持续演进平台PB级多模态生物医学数据(基因组变异、临床记录、影像数据等)的混合存储架构,统筹关系型数据库、分布式数据库、对象存储与搜索引擎的选型与应用场景规划;
(2)制定平台级数据模型规范、分库分表策略、数据生命周期管理及归档方案,确保系统具备前瞻性的扩展能力;
2.数据处理流水线与自动化系统建设:
(1)设计与实现从数据提交,质控,校验,入库,汇总,展示的完整自动化流程;
(2)构建支持大规模队列的高可靠数据处理与版本管理体系; 3)保障数据处理过程的可重现性、审计性与错误可追溯性;
3. 高性能查询与分析支持:
(1)构建支持复杂科研查询的数据库结构,包括但不限于跨队列样本检索;亲缘关系 / 重复样本检测;群体结构、祖源、频率、关联分析结果的高效存储与访问;
(2)支撑大规模科研分析结果的管理与可视化;
4.数据质量、合规与安全:
(1)将数据合规要求(伦理、隐私、数据安全法规)转化为可执行的数据访问控制、审计与脱敏机制;
(2)构建数据质量控制体系,确保数据的准确性、一致性与完整性;
(3)支持对外数据共享、期刊与国际数据库对接的标准化输出;
5.技术领导与跨团队协作:
(1)作为平台级专家解决复杂技术问题,制定数据库与数据工程实践;
(2)指导和培养中级工程师,提升团队整体的数据技术能力;
(3)与科研 PI、伦理与管理部门协同,平衡科研创新与数据安全。