红杉中国推出AI 测评工具
红杉认为,随着大语言模型的快速发展和AI Agent 进入规模化应用阶段,被广泛使用的基准测试面临一个日益尖锐的问题:第三方基准并不能完全客观反映 AI 的能力。
于是他们在今天推出一款AI 基准测试工具 xbench。
xbench 采用双轨评估体系,将 AI 评测任务分为两条互补的主线:(1)评估 AI 系统的能力上限与技术边界;(2)量化 AI 系统在真实场景的效用价值(Utility Value)。红杉中国称,xbench 会重点量化 AI 系统在真实场景的效用价值,捕捉 Agent 产品的关键突破。
[本文作者佚名,i黑马原创。如需转载请联系微信公众号(ID:iheima)授权,未经授权,转载必究。]