岗位职责:
1.负责公司大数据平台的整体架构设计与优化,包括数据存储、计算框架、数据处理流程等,确保平台的高可用性、高性能和可扩展性。
2.深入研究和应用分布式计算框架(如 Spark、Flink、Storm 等),结合业务需求进行架构优化和性能调优。
3.负责海量数据的处理、分析和挖掘,包括数据清洗、转换、聚合等 ETL 流程的设计与实现。
4.使用机器学习、深度学习等算法对数据进行建模和分析,为业务决策提供数据支持。
5.负责数据仓库和数据湖的建设与维护,设计合理的数据模型,确保数据的一致性和完整性;管理数据生命周期,优化数据存储结构,提升数据存储效率。
6.负责实时数据处理系统的开发与优化,使用流计算框架(如 Kafka、Flink、Storm 等)实现低延迟的数据处理和分析;设计和实现实时数据监控和告警系统,及时发现和处理异常数据。
7.确保数据处理过程符合数据安全和隐私保护法规,设计和实施数据加密、访问控制等安全机制;参与数据治理工作,确保数据质量和数据合规性。
8.关注大数据领域的新技术、新趋势,结合公司业务需求进行技术预研和创新;推动大数据技术在公司业务中的应用,提升公司的数据驱动能力。
9.与数据科学家、数据分析师、业务团队等密切合作,共同推动数据项目的落地和实施;定期组织技术分享和培训,提升团队整体技术水平。
任职要求:
1.计算机科学与技术、数据科学、统计学、数学等相关专业博士或硕士学位。博士学历:应届毕业生或1年以上相关工作经验;硕士学历:3 年以上大数据相关工作经验。
2.精通分布式计算框架(如 Spark、Flink、Storm 等),能够进行集群部署、配置和优化。
3.熟悉大数据存储技术(如 Hadoop HDFS、HBase、Cassandra 等),了解其原理和使用场景。
4.熟悉实时数据处理框架(如 Kafka、Flink、Storm 等),能够实现低延迟的数据处理和分析。
5.熟练掌握 SQL 和至少一种编程语言(如 Python、Java、Scala 等),能够进行数据处理和分析。
6.熟悉机器学习和深度学习的基本原理和算法,能够使用相关工具(如 TensorFlow、PyTorch 等)进行数据建模。
7.具备较强的研究能力,能够独立开展大数据相关领域的研究工作,发表过相关学术论文或专利者优先;具备较强的技术应用能力,能够将学术研究成果转化为实际解决方案。
8.具备较强的学习能力,能够快速掌握新技术和新工具;具备较强的责任心,对数据质量和数据安全负责。
9.具备良好的沟通能力,能够与团队成员和业务部门进行有效的沟通和协作。
10.具备以下工作经验者优先:大规模数据处理和分析的实际项目经验,熟悉数据仓库和数据湖的建设与维护;数据安全和隐私保护的经验;机器学习、深度学习等算法优化和应用的经验;开源项目贡献或技术社区活跃度高者优先。