任职要求:
1.熟练掌握python,熟悉cuda/triton,能够阅读相关代码;2.熟练使用torch、transformer、llama-factory等python库,能够进行debug及二次开发;3.有算法训练或模型推理优化的项目经验,有良好的代码规范,工作态度认真,有责任心;加分项:1.掌握常见的量化调优算法,比如spinquant、smoothquant等,掌握QAT、KV-Cache压缩、稀疏化、剪枝等压缩算法;2.掌握常见的大模型(比如DeepSeek/Qwen)算法、优化技术、模型结构,熟悉tokenizer/chat_template/ROPE/flas
研究方向:
1.量化工具的开发及维护,优化W4A4/W4A8/W4A16/W8A8模式下的量化精度及混合精度,掌握模型精度定位及优化的方法,进行模型精度测评,并帮助下游团队进行落地部署;2.开发训练精度对比工具,进行算子级别和模型级别的精度分析,掌握GPU和自研NPU的精度对齐工具使用和调试方法;3.优化低比特训练技术,包括FP4/FP8训练,混精优化器,通信算子的量化,并调试精度;