张海立
出品人 · Producer

张海立张海立

Ambassador · LangChain

张海立,LangChain Ambassador,《LangGraph实战》、《LangChain实战》作者,LangChain 官方大使,LFAPAC 开源布道师。

B 站万粉 UP 主,开源爱好者,长期关注和致力于 GenAI、云原生和前沿互联网技术的技术落地和推广。曾就职于英特尔亚太研发有限公司,担任高级研发经理和架构师。

作品:《LangGraph 实战》、《LangChain实战

负责专题

Eval

模型在某项任务上的正确率是 60%、95%,还是 99.5%?Agent 的任务完成率有没有提升?一次 Prompt 调整到底带来了优化还是退步?这些问题背后,都离不开 Eval。

随着 AI 应用逐步进入生产环境,评测正在成为 AI 产品研发过程中不可缺少的一环。越来越多团队开始在开发产品的同时建设 Eval 体系,通过持续测试和反馈来验证模型、Agent 与业务流程的实际效果。

这个专题聚焦 AI 应用的评测与优化实践,内容涵盖 Eval 数据集构建、自动化 Eval、Agent 评测、线上监控、质量保障与持续优化等方向。

嘉宾将分享如何定义产品中的好结果,如何发现系统隐藏的问题,以及如何建立一套能够伴随产品持续迭代的评测机制。

对于很多 AI 团队来说,产品能力的上限可能由模型决定,但产品质量的下限往往由 Eval 决定。

一个完善的 Eval 体系,不仅能够帮助团队发现问题,更能够为每一次模型升级、Prompt 调整和系统重构提供可靠依据。

足够新鲜的思考、经验和判断。

9 月 12 日 · 上海浦东

参会购票