红杉中国推AI基准测试对象xbench 重点量化AI系统场景功效代价

鳣痯往吇新闻网

红杉中国推AI基准测试对象xbench 重点量化AI系统场景功效代价

2025-05-26 12:09:05

阅读（8059）

雷递网乐天 5月26日

红杉中国本日正式推出一款全新的AI基准测试工具xbench，并发布论文《xbench: Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。

红杉中国称，在评价和推动AI系统提升能力上限与技术边界的同时，xbench会重点量化AI系统在实在场景的效用价值，并采纳长青评价的机制，去捕捉Agent产品的枢纽突破。

据介绍，随着基础模型的快速进展和AI Agent进入规模化应用阶段，被遍及使用的基准测试（Benchmark）却面对一个日益尖利的成绩：想要实在地反应AI的客观能力正变得越来越困难。

因此，构建更加科学、长效和如实反应AI客观能力的评测系统，正在成为指引AI技术突破与产品迭代的紧张需求。

展开剩余 77 %

据介绍，xbench采纳双轨评价系统，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与Agent的实际落地价值。

该系统创新性地将评测使命分为两条互补的主线：（1）评价AI系统的能力上限与技术边界；（2）量化AI系统在实在场景的效用价值（Utility Value）。其中，后者需要静态对齐实际世界的应用需求，基于实际工作流程和具体社会脚色，为各垂直领域构建具有明白业务价值的测评标准。

xbench采纳长青评价（Evergreen Evaluation）机制，通过持续维护并静态更新测试内容，以确保时效性和相关性。我们将按期测评市场主流Agent产品，跟踪模型能力演进，捕捉Agent产品迭代过程中的枢纽突破，进而预测下一个Agent应用的技术-市场契合点（TMF，Tech-Market Fit）。作为独立第三方，我们致力于为每类产品设计公允的评价情况，提供客观且可复现的评价结果。

首期发布包含两个核心评价集：科学成绩解答测评集（xbench-ScienceQA）与中文互联网深度搜索测评集（xbench-DeepSearch），并对该领域主要产品进行了综合排名。同期提出了垂直领域智能体的评测方法论，并构建了面向招聘（Recruitment）和营销（Marketing）领域的垂类Agent评测框架。评测结果和方法论可通过xbench.org网站实时查看。

在过去两年多的时间里，xbench不停是红杉中国在内部使用的跟踪和评价基础模型能力的工具。

红杉中国称，2022年ChatGPT推出后，红杉中国最先对AGI进程和主流模型实行每个月的评测与内部汇报。2023年3月，红杉中国最先建设xbench的第一批公有题库，题目类型主要针对Chatbot简单问答及逻辑思索。

2025年3月，红杉中国最先第三次对xbench题库进行进级，思索两个核心成绩：

1/ 模型能力和AI实际效用之间的关系：我们出越来越难的题目意义是什么，是否落入了惯性思维？AI落地的实际经济价值真的和AI会做困难正相关吗？举个例子，程序员工作的Utility Value很高，但AI做起来进步异常快，而“去工地搬砖”这样的工作AI却几乎没法完成。

2/ 不同时间维度上的能力对照：每一次xbench换题，我们便失去了对AI能力的前后可比性追踪，因为在新的题集下，模型版本也在迭代，我们没法对照不同时间维度上的单个模型的能力怎样变化。在判断创业项目标时候，我们喜欢看创业者的“成长斜率”，但在评价AI能力这件事上，我们却因为题库的不断更新而没法无效判断。

红杉中国引入Profession Aligned的基准观点，认为评价会分为AGI tracking与Profession Aligned，AI将面对更多复杂情况下效用的考察，从业务中收集的静态题集，而不单是更难的智力题。