吴坤林

华为强化学习专家

专题横幅
吴坤林

吴坤林是华为强化学习专家。在进入强化学习领域之前,他在华为拥有超过十年的分布式研发经验,为其理解和构建大规模、高可用的智能系统奠定了坚实基础。

近年来,他的工作重心转向强化学习,专注于将前沿的 RL 理念与实际业务场景相结合,并在算法选型、系统架构设计以及工程化落地实践等方面积累了丰富经验。

开源项目:Omni-Infer

Omni_RL:昇腾平台上的 RL 训练框架探索

本次演讲聚焦强化学习在昇腾平台的工程化落地与技术创新,以自主研发的 Omni_RL 训练框架为核心,系统拆解当前大规模 RL 训练过程中面临的三大核心技术挑战——训推一致性偏差、长尾与计算不均衡、复杂工具执行环境集成难题。

逐一阐述针对性的技术突破与解决方案,展现 Omni_RL 如何基于昇腾平台的算力优势,实现 RL 训练的高效化、稳定化与安全化。

演讲大纲:

1. 强化学习与 Omni_RL 框架基础
2. 训推一致性挑战:破解分布失配与偏差难题
3. 长尾与计算不均衡性挑战:提升训练效率与资源利用率
4. 复杂工具执行环境的挑战:实现多工具安全高效集成