岗位职责:
1. 负责语音识别理解和语音生成算法、建模方案研究,推动应用落地。
2. 侧重于研发超写实语音合成、情感可控语音合成、零资源语音克隆(zero-shot TTS)、语音转换和音频音乐生成等生成类算法,
以及融合语音识别、语音翻译、说话人识别、音频分析、语音分离等多任务模型算法,推动技术在同声翻译、数字人对话等场景中应用。
3. 探索音频模态和LLM的结合,实现语音识别、音频理解、语音生成、语音转换、音乐生成和音效生成的统一建模方案,并推动落地应用。
4. 通过跟踪和创新,确保算法技术的行业领先。
5. 持续关注学术界和行业的最新研究动态,参与国际会议、研讨会,与全球顶级团队进行交流合作。
任职要求:
1. 计算机科学、人工智能、语音处理、机器学习或相关领域的博士学位。
2. 在语音识别、语音合成、自然语言处理、图像生成、音乐生成、语音翻译相关领域有2年以上的研究研发经验。
3. 熟悉深度学习、神经网络技术以及相关的开源工具和框架(如TensorFlow、PyTorch)。
4. 具备出色的编程能力,熟练掌握Python或其他相关编程语言。
5. 具备良好的团队合作精神、沟通能力以及解决问题的能力。