Eval

模型在某项任务上的正确率是 60%、95%,还是 99.5%?Agent 的任务完成率有没有提升?一次 Prompt 调整到底带来了优化还是退步?这些问题背后,都离不开 Eval。

随着 AI 应用逐步进入生产环境,评测正在成为 AI 产品研发过程中不可缺少的一环。越来越多团队开始在开发产品的同时建设 Eval 体系,通过持续测试和反馈来验证模型、Agent 与业务流程的实际效果。

这个专题聚焦 AI 应用的评测与优化实践,内容涵盖 Eval 数据集构建、自动化 Eval、Agent 评测、线上监控、质量保障与持续优化等方向。

嘉宾将分享如何定义产品中的好结果,如何发现系统隐藏的问题,以及如何建立一套能够伴随产品持续迭代的评测机制。

对于很多 AI 团队来说,产品能力的上限可能由模型决定,但产品质量的下限往往由 Eval 决定。

一个完善的 Eval 体系,不仅能够帮助团队发现问题,更能够为每一次模型升级、Prompt 调整和系统重构提供可靠依据。

专题嘉宾

01 位嘉宾
出品人
张海立
专题内容策划与出品
张海立 · Ambassador · LangChain

足够新鲜的思考、经验和判断。

9 月 12 日 · 上海浦东

参会购票