张海立

负责专题

模型在某项任务上的正确率是 60%、95%，还是 99.5%？Agent 的任务完成率有没有提升？一次 Prompt 调整到底带来了优化还是退步？这些问题背后，都离不开 Eval。

随着 AI 应用逐步进入生产环境，评测正在成为 AI 产品研发过程中不可缺少的一环。越来越多团队开始在开发产品的同时建设 Eval 体系，通过持续测试和反馈来验证模型、Agent 与业务流程的实际效果。

这个专题聚焦 AI 应用的评测与优化实践，内容涵盖 Eval 数据集构建、自动化 Eval、Agent 评测、线上监控、质量保障与持续优化等方向。

嘉宾将分享如何定义产品中的好结果，如何发现系统隐藏的问题，以及如何建立一套能够伴随产品持续迭代的评测机制。

对于很多 AI 团队来说，产品能力的上限可能由模型决定，但产品质量的下限往往由 Eval 决定。

一个完善的 Eval 体系，不仅能够帮助团队发现问题，更能够为每一次模型升级、Prompt 调整和系统重构提供可靠依据。

About · 嘉宾介绍