威廉希尔WilliamHill香港科技大学团队发明AI超级助手

更新时间：2026-03-19

点击次数：

　　这项由香港科技大学、北卡罗来纳大学教堂山分校、浙江大学和新加坡国立大学联合开展的研究发表于2026年3月，论文编号为arXiv:2602.23166v2，为人工智能多模态智能体评估提供了全新的基准测试体系。

　　人工智能已经能下棋、能聊天，但它们能像人类一样处理复杂的现实问题吗？比如看着家里的装修照片，然后上网查找合适的地板材料，计算需要多少钱？或者看到一张产品标签，判断过敏的朋友能不能吃？这些看似简单的任务，实际上需要AI同时具备看图、上网搜索、数学计算等多种能力，并且要在多个步骤中灵活切换使用这些技能。

　　现在的AI测试大多只检验单一能力，就像只考数学或只考语文，但现实生活中的问题往往需要十八般武艺样样精通。研究团队意识到了这个问题，于是开发了一个名为AgentVista的全新测试系统，专门考验AI是否真的能像人类助手一样处理复杂的现实任务。

　　这个测试系统包含了209道超难题，涵盖了生活中的方方面面。从帮你选购符合营养需求的食品，到协助规划最优旅行路线，从诊断家电故障到分析体育比赛数据，每一道题都需要AI在看图、搜索、计算、推理之间来回切换，就像一场智能体马拉松。

　　令人意外的是，即使是目前最先进的AI系统，在这套测试中的表现也不尽如人意。表现最好的Gemini-3-Pro模型准确率仅为27.3%，这意味着十道题只能答对不到三道。更有趣的是，研究发现AI经常在最基础的看图环节就出了错，然后在错误的基础上越走越远，就像走错了路却还在拼命奔跑的旅行者。

　　WilliamHill官方网站威廉希尔中文官网

　　想象你正在装修房子，手机里有几张不同房间的照片，你想找到一款特定风格的地板，还要计算需要多少材料和费用。这个看似平常的任务实际上相当复杂：你需要仔细观察照片中的地板样式，上网搜索类似的产品，查看产品规格，测量房间尺寸，最后进行价格计算。整个过程中，你的眼睛、大脑、手指和各种工具都在协同工作。

　　这正是研究团队想要AI学会的事情。传统的AI测试就像学校里的单科考试，只检验AI在某一方面的能力，比如能否识别图片中的物体，或者能否正确回答问题。但现实生活中的问题很少这么单纯，它们往往需要多种技能的组合运用。

　　现有的AI评测存在两个主要问题。第一个问题是能力分割，就像只会做菜的厨师不会买菜，只会买菜的人不会做菜，各种能力被人为分开测试。第二个问题是现实感缺失，为了让测试更容易进行，研究人员往往会简化图片或者提供过于理想化的条件，这就像在实验室里测试汽车性能，却忽略了真实道路上的复杂路况。

　　AgentVista的诞生正是为了解决这些问题。它不再满足于测试AI的单项技能，而是要看AI能否像人类一样，在面对复杂现实问题时灵活运用多种工具和技能。这就像从考察单项体育技能转向考察全能运动员的综合实力。

　　这套测试系统的独特之处在于，它使用的都是真实世界的图片和真实用户的需求。没有经过美化处理的标准化图片，没有简化的理想条件，每一道题都来源于人们在日常生活中真正遇到的挑战。这就像让AI参加真实的驾驶考试，而不是在模拟器里练习。

　　AgentVista就像为AI设计的一场十项全能比赛，包含了七个大类共25个细分领域的挑战。这些挑战覆盖了现代生活的各个角落，从购物到旅行，从娱乐到学术研究，应有尽有。

　　在技术类挑战中，AI需要像一名技术专家一样工作。比如看到一张电脑主板的照片，AI需要识别出特定的芯片型号，然后上网查找这款芯片的技术规格，最后根据可见的配置计算出总的缓存容量。这个过程就像一名电脑维修师傅在诊断硬件问题，需要丰富的专业知识和细致的观察能力。

　　商业类任务则更贴近日常购物体验。研究团队设计了一个典型场景：帮助有严重坚果过敏的朋友选择巧克力酱。AI需要仔细查看货架上各种产品的标签，识别出完全不含坚果的选项，然后比较这些产品的糖分含量，最终找出糖分最低的那一款。这不仅需要准确的视觉识别能力，还需要理解食品标签的复杂信息，以及进行多维度的比较分析。

　　地理类挑战考验的是AI的空间理解和路线规划能力。想象你在一个陌生的日本城市，需要在周日走访几家不同的商店，但每家店的营业时间都不同，而且你必须乘坐公共交通。AI需要看懂交通图，查询每家店的营业时间，计算最优的访问顺序，还要估算总的交通费用。这就像一场复杂的城市探险游戏，考验的是综合的规划和执行能力。

　　娱乐类任务涵盖了体育分析和游戏策略。比如在一个篮球战术分析任务中，AI需要观察球员在场上的位置分布图，结合球员的投篮热力图数据，判断哪个位置最适合这名球员发挥最大效果。这种分析需要对体育战术的深度理解，以及数据可视化的解读能力。

　　社会生活类任务更是五花八门，从植物养护到手工制作，从健康饮食到家庭维修。在一个典型的任务中，AI需要帮助诊断乐高积木组装过程中出现的问题。通过观察组装步骤图和实际的积木照片，AI需要找出哪个零件安装错误，这需要极强的细节观察能力和空间想象力。

　　学术类任务则考验AI的逻辑推理和数学计算能力。比如分析一个复杂的神经网络结构图，计算其中注意力机制的计算复杂度。这类任务需要AI具备专业的学术背景知识，同时能够进行精确的数学运算。

　　文化类挑战最为有趣，涉及历史知识、艺术鉴赏和传统工艺。在一个织布工艺的任务中，AI需要观察五张不同阶段的织布样品照片，根据线条的复杂程度和织法特点，推断出这五个阶段的正确顺序。这需要对传统工艺的深度理解和视觉分析能力。

　　每一道题目都有一个明确、可验证的答案，可能是一个数字、一个产品名称、或者一个简短的结论。这种设计确保了测试结果的客观性和可重复性，同时也让评估变得更加高效和准确。

　　更重要的是，所有的任务都要求AI进行工具切换。AI不能仅仅依靠预训练的知识来回答问题，而必须主动使用搜索工具获取最新信息，使用图像处理工具分析细节，使用计算工具进行数值计算。这就像要求一名工匠在工作中灵活使用锤子、锯子、量尺等不同工具，而不是只会用其中一种。

　　创建这样一套测试系统绝非易事，就像筹备一场世界级体育赛事需要精心设计每个项目一样。研究团队从超过30万张真实图片中开始了他们的淘金之旅，最终精选出209道具有代表性的挑战题目。

　　这个筛选过程分为四个严格的阶段，每个阶段都有明确的质量标准。第一阶段是AI辅助筛选，研究团队使用Claude-Opus-4模型作为初步过滤器，剔除那些视觉信息有限或者缺乏挑战性的图片。这就像用磁铁从沙子中挑出铁粉，快速去除明显不符合要求的材料。同时，AI还会为每张候选图片提出一个初步的任务构想，为后续的人工精加工提供基础。

　　第二阶段是专家精雕细琢。研究团队招募并培训了专业标注员，这些标注员就像经验丰富的题目设计师，需要将每个任务改写成贴近真实用户需求的形式。他们必须确保每个问题都是自包含的，不依赖外部背景知识，同时要保持任务的现实意义。比如，他们会把一个简单的识别这个产品问题改写成帮助有特殊饮食需求的朋友选择合适的产品，并计算性价比这样的复合任务。

　　WilliamHill官方网站威廉希尔中文官网

　　标注员还需要为每个任务提供确定性的标准答案，并记录获得这个答案所需的关键证据和工具使用步骤。这个过程就像编写详细的解题攻略，不仅要知道答案是什么，还要清楚地知道为什么是这个答案，以及如何一步步达到这个答案。

　　第三阶段是执行验证。研究团队实际运行每个候选任务，使用相同的工具环境来验证标注答案的正确性。他们还使用Gemini-3-Flash模型来检查任务的工具使用多样性，确保每个任务都需要至少两种不同类型的工具配合使用。同时，他们使用Gemini-2.5-Pro在无工具访问的条件下测试每个任务，剔除那些不使用工具也能解决的简单问题。

　　第四阶段是双重审核。每个通过前三个阶段的任务都要经过两轮独立审核。第一轮审核关注任务的视觉依赖性和答案有效性，确保任务确实需要从图像中获取关键信息，而且答案是稳定可靠的。第二轮审核则由另一组审核员重新验证整个解题过程，确保所记录的证据和步骤能够支持最终答案。

　　经过这四个阶段的严格筛选，最终只有不到0.07%的原始候选材料通过了所有测试，形成了最终的209道题目。这个比例就像从几十万名候选者中选出几百名顶尖运动员参加奥运会一样严格。

　　为了支持这些复杂的任务，研究团队还设计了一套精简而强大的工具环境。这个环境包含四类基本工具：网络搜索工具用于获取最新信息，图像搜索工具用于查找相关图片或进行反向搜索，网页访问工具用于深入浏览特定页面，以及代码执行环境用于进行图像处理和数学计算。

　　网络搜索工具就像一个超级图书管理员，能够快速找到与查询相关的网页和信息片段。图像搜索工具则像一个视觉侦探，既能根据文字描述找到相关图片，也能拿着一张图片去寻找相似的内容。网页访问工具如同一个专业的阅读助手，能够从复杂的网页中提取出最有用的文本内容。代码执行环境则是一个多功能工具箱，既能处理图像（比如裁剪、测量、增强对比度），也能进行各种数学运算和数据分析。

　　这种工具设计的巧妙之处在于，它们既足够强大可以处理复杂任务，又足够简洁不会让测试变得过于技术化。每个工具都有清晰的输入输出规范，确保不同的AI系统可以公平地使用相同的工具集合。

　　当研究团队用AgentVista测试当前最先进的AI模型时，结果着实令人意外。这些平时在各种任务中表现出色的AI学霸们，在这场综合考试中却显得有些力不从心。

　　测试涵盖了14个顶级AI模型，包括OpenAI的GPT系列、Google的Gemini系列、Anthropic的Claude系列，以及其他知名的开源和闭源模型。这就像邀请了各个学校的尖子生参加一场跨学科的知识竞赛。

　　最令人震惊的发现是，即使是表现最好的Gemini-3-Pro模型，整体准确率也只有27.3%。这意味着在面对这些现实世界的复合任务时，最先进的AI系统十次中只能答对不到三次。这个结果就像发现奥运会的游泳冠军在铁人三项比赛中只能完成不到三分之一的项目。

　　更有趣的是，不同模型家族展现出了各自独特的专长。GPT-5系列在实用性较强的类别中表现突出，比如商业和技术类任务。GPT-5.2在技术挑战中得分最高，在娱乐类任务中也表现不错。这就像发现某些选手特别擅长需要精确计算和逻辑推理的项目。

　　Gemini系列则显示出更全面的能力，Gemini-3-Pro不仅总分最高，在地理类任务中也遥遥领先，同时在社会生活和文化类任务中表现稳定。这种表现模式就像一名全能型选手，虽然在某些单项上可能不是最顶尖，但综合实力最为均衡。

　　Claude模型家族在需要仔细阅读和严格遵循约束条件的任务中表现相对较好，特别是在技术和地理类挑战中。这反映了不同AI系统在设计理念和训练方式上的差异，就像不同运动员有着不同的训练背景和技术特点。

　　一个特别有趣的发现是关于多图输入任务的表现。出乎意料的是，当任务涉及多张图片时，大多数模型的表现反而比单图任务更好。Gemini-3-Pro在多图任务中的准确率达到36.84%，比单图任务的23.68%高出了13个百分点。

　　这个现象的原因很有趣。在多图任务中，不同角度或不同时间点的图片往往提供了互补的信息，减少了歧义性，让AI更容易理解完整的情境。就像侦探调查案件时，如果有多个角度的现场照片，往往比只有一张照片更容易推断出真相。这说明问题的难点主要不在于处理多个图像的复杂性，而在于长期的工具使用和约束条件的跟踪。

　　开源模型的表现则显示出明显的差距。表现最好的开源模型Qwen3-VL-235B的准确率只有12.92%，远低于闭源模型的表现。这个差距反映了当前开源和商业AI系统在处理复杂多模态任务方面的技术鸿沟。

　　任务的复杂程度也通过工具调用次数得到了直观体现。平均而言，AI系统需要使用12.67次工具调用才能完成一个任务，其中GPT-5.2平均需要13.85次调用。有些特别复杂的任务甚至需要超过25次工具交互。这就像一个复杂的烹饪过程，需要反复使用不同的厨具和调料，每一步都不能马虎。

　　深入分析AI模型的工具使用模式，研究团队发现了一些有趣的行为差异，这些差异就像观察不同工匠的工作习惯一样引人深思。

　　GPT系列模型显示出对代码执行工具的明显偏好，使用频率达到了70%以上。进一步分析发现，这些模型特别喜欢进行图像处理操作，比如裁剪图片来突出关键区域，调整对比度来看清模糊的细节，或者进行尺寸测量和区域比较。其中，裁剪是使用最频繁的操作，几乎出现在每个解题过程中。这种行为模式反映了GPT系列在处理视觉信息时倾向于动手操作的特点，就像一个喜欢亲自动手检查每个细节的工匠。

　　相比之下，Gemini和Claude系列模型更倾向于使用网络搜索工具，使用频率超过60%。这些模型似乎更相信通过获取外部信息来解决问题，而不是过度依赖图像处理。这种差异就像比较两种不同的学习风格：一种是通过实际操作来理解问题，另一种是通过查阅资料来寻找答案。

　　有趣的是，图像搜索工具在所有模型中的使用频率都相对较低。这可能是因为图像搜索往往需要更精确的查询策略，而且搜索结果的相关性有时难以判断。这就像在图书馆里，虽然图片资料很丰富，但找到真正相关的图片往往比找到相关文字资料更困难。

　　为了更深入理解各种工具的重要性，研究团队进行了一项工具剥夺实验。他们分别测试了AI在只能使用视觉操作工具、只能使用搜索工具，以及完全无法使用工具的情况下的表现。

　　实验结果揭示了工具组合的重要性。对于Gemini-3-Pro，完整工具环境下的27.27%准确率在只保留视觉工具时下降到20.10%，在只保留搜索工具时略微下降到26.32%，而在无工具环境下则跌至18.18%。这个模式说明Gemini-3-Pro的强项在于视觉理解，它能够从图像中可靠地提取信息，然后主要通过搜索和网页浏览来补充所需的外部知识。

　　Claude-Sonnet-4.5的表现模式则完全不同。该模型在完整工具环境下达到17.70%的准确率，在仅有视觉工具时保持17.22%，但在仅有搜索工具时下降到13.40%。这表明Claude-Sonnet-4.5更依赖视觉操作来理解和验证信息，而搜索能力的缺失对其影响相对较小。

　　这些差异反映了不同AI系统在处理多模态任务时的策略偏好。有些系统更像是实践派，偏好通过直接操作和分析来获得答案；有些系统更像是理论派，倾向于先搜集足够的背景信息再做判断。

　　工具切换的复杂性也是一个重要发现。成功的任务解决往往需要在不同工具之间进行多次切换，这就像一个厨师在烹饪过程中需要灵活使用刀具、炉灶、调料等不同工具。AI需要根据当前获得的信息来决定下一步应该使用哪种工具，这种决策能力的好坏直接影响了最终的任务完成质量。

　　通过对失败案例的深入分析，研究团队发现了AI在处理复杂现实任务时的几个关键弱点，这些发现就像医生诊断病症一样，为改进AI系统指明了方向。

　　视觉误识别是所有模型面临的最大挑战，占据了错误案例的40%以上。这个问题就像一个侦探在最关键的线索上看错了细节，导致整个推理过程都偏离了正确方向。比如在一个任务中，AI需要识别书店橱窗中的作家照片，但它误读了其中一位清晰可见的著名作家，然后基于错误的身份信息进行后续搜索，最终得出了完全错误的结论。

　　在另一个典型案例中，AI需要通过观察篮球场的地板标识来确定体育馆的身份。由于图片分辨率和角度的限制，AI无法准确识别地板上的队徽，于是转而依赖场馆的建筑特征（如天花板结构、看台设计）来推测。这种方法看似合理，但建筑特征往往不够独特，最终导致AI锁定了错误的体育馆。

　　知识幻觉是第二大错误来源。这种错误就像一个自信满满但实际上记错了知识点的学生，AI会生成看似合理但实际上不被证据支持的信息。在一个植物病害诊断任务中，AI观察到植物根部有白色硬块，但它将此解释为育苗塞或菌丝体，并详细描述了这些物质的特性。然而，根据图片和植物的历史（曾经过度浇水），正确答案应该是根腐病愈合后形成的胼胝体组织。AI的错误在于它依赖了通用的植物知识，而没有充分结合具体的视觉证据和历史背景。

　　工具执行失败虽然占比相对较小，但往往在关键时刻发生，就像运动员在最后冲刺时摔倒一样令人惋惜。在一个拼图重建任务中，AI的策略完全正确：先分割出各个拼图块，然后根据图案匹配重建完整图片。但在图像分割这个关键步骤上，AI的算法只识别出了24个区域，而不是预期的35个拼图块。由于缺少了关键的拼图块，后续的重建工作无法进行，整个任务宣告失败。

　　计算错误通常发生在任务的后期阶段，当AI已经收集了大量正确信息，却在最后的数值处理上出现问题。这就像一个学生完美地理解了物理原理，却在最后的数学计算中算错了答案。这类错误特别令人沮丧，因为AI已经非常接近正确答案了。

　　指令误解则反映了AI在理解复杂约束条件时的困难。在一个摄影道具设计任务中，用户要求设计一个看起来像悬挂秋千但实际完全固定的拍照道具。AI提出了一个用横杆明显支撑座椅的设计，完全违背了悬挂外观的关键要求。这种错误说明AI在处理具有创意性或需要理解隐含意图的任务时仍有不足。

　　最有趣的发现是错误的雪崩效应。一旦AI在早期步骤中犯错，这个错误往往会在后续步骤中被放大，就像雪球滚下山坡越滚越大。视觉误识别导致错误的搜索关键词，错误的搜索结果强化了最初的误判，最终整个推理链条都建立在错误的基础上。这说明在长期任务中，早期准确性的重要性被显著放大了。

　　就像学生考试时如果有更多时间思考是否能答得更好一样，研究团队探索了给AI更多思考机会是否能改善其表现。他们设计了一个测试时间扩展实验，让AI为每个任务生成多个独立的解答尝试，然后从中选择最好的答案。

　　这个实验使用了Gemini-3-Flash模型，让它为每个任务生成1到16个不同的解答。研究团队测试了三种评估方式：随机选择一个答案作为基准（Random1@K），使用奖励模型选择得分最高的答案（Best-of-K），以及检查是否至少有一个正确答案（Pass@K）作为理论上限。

　　结果令人鼓舞但也揭示了现实局限性。通过奖励模型选择，AI的表现从单次尝试的21.05%提升到16次尝试后的30.62%，改进幅度达到约45%。这就像一个射箭手从一次机会增加到16次机会，命中率显著提高了。

　　更令人惊讶的是理论上限的数据。当允许16次尝试时，至少有一次正确的概率（Pass@16）达到了51.67%，这意味着AI实际上有能力解决一半以上的任务，只是在选择正确答案这个环节上还有很大改进空间。

　　这个发现非常有启发性。它说明当前AI系统的问题不仅仅在于缺乏解决问题的能力，更在于缺乏识别正确解决方案的能力。这就像一个学生实际上知道正确答案，但无法确定哪个答案是正确的。

　　然而，即使有了16次尝试的机会，最佳表现也只达到30.62%，离完全解决这些任务还有很大距离。这说明AgentVista确实捕捉到了当前AI系统的根本性挑战，不是通过简单的多次尝试就能解决的。

　　这个实验还揭示了一个重要的技术方向：开发更好的自我评估和答案选择机制对于提升AI的实际应用效果具有巨大潜力。目前的AI系统就像一个有多种想法的人，但缺乏判断哪种想法最好的元认知能力。

　　为了更直观地理解AI的表现，研究团队展示了一些典型的成功和失败案例，就像分析运动员的精彩瞬间和失误镜头一样具有教育意义。

　　在一个成功的奢侈品鉴定任务中，AI表现出了令人印象深刻的综合能力。任务要求AI判断一双运动鞋的真伪，并给出至少两个视觉依据。AI采用了系统性的方法：首先搜索了该品牌鉴定指南，了解了关键检查点包括鞋舌标签字体、缝线质量和内部标签格式。然后它使用图像搜索找到了正品的参考图片，特别关注鞋舌和内部尺码标签的细节。

　　在分析过程中，AI发现了一个关键线索：鞋子内部有一个标注为A8513的贴纸，这种通用型贴纸在正品中从未出现过。通过进一步的搜索验证，AI确认这种贴纸确实是仿品的典型特征。最终，AI正确判断这双鞋是仿品，并准确指出了鞋舌字体异常和内部标签格式不符合正品标准这两个关键证据。整个过程使用了7次工具调用，展现了完美的工具协调能力。

　　另一个成功案例涉及德国啤酒分析。AI需要从一张照片中的多种啤酒中找出酒精含量最高的德国产啤酒。AI首先使用代码工具裁剪图片，清晰地识别出各个啤酒罐的品牌和规格信息。然后通过网络搜索确认了各个品牌的酒精度数和产地信息。在发现Steam Brew German Red和Perlenbacher Strong都达到7.9%酒精度后，AI进一步确认了两者的容量都是500毫升，因此计算出两者的总酒精含量相等。整个分析过程逻辑清晰，证据充分。

　　相比之下，失败案例往往在早期就偏离了正确轨道。在一个拼图重建任务中，AI的策略本身是正确的：通过图像处理将拼图分割成独立的块，然后根据图案匹配重建完整图片。但在执行图像分割时，AI的算法遇到了技术难题。由于拼图块之间的边界不够清晰，分割算法将相邻的块合并在一起，最终只得到24个区域而不是应有的35个拼图块。缺少了关键拼图块，后续的重建工作无法进行。

　　在另一个失败案例中，AI需要识别书店橱窗中的著名作家。尽管目标作家的照片清晰可见，但AI在视觉识别环节就出现了错误。它无法准确识别出这位作家的身份，转而尝试通过OCR提取文字信息和分析海报内容。但由于初始识别错误，后续的所有搜索都偏离了方向，最终得出了完全错误的答案。

　　一个特别有启发性的失败案例涉及体育场馆识别。AI需要根据篮球场的照片确定这是哪所大学的体育馆。由于地板标识不够清晰，AI转向分析建筑特征，如天花板的桁架结构和跑道设计。这种方法看似合理，但建筑特征往往不够独特。AI最终将注意力集中在了错误的候选学校上，然后用通用的建筑相似性强化了这个错误判断。

　　这些案例对比揭示了AI成功和失败的关键差异。成功的案例往往具有清晰的视觉线索，允许AI建立准确的初始理解，然后通过系统性的验证过程确认答案。失败的案例则通常在早期就遇到了视觉理解的障碍，或者依赖了不够独特的特征进行推理。

　　AgentVista的测试结果就像一面镜子，不仅反映了当前AI系统的真实水平，更重要的是为未来的改进指明了方向。这些发现对于AI领域的发展具有重要的指导意义。

　　首要的启示是视觉理解能力仍然是AI系统的最大瓶颈。尽管现代AI在标准图像识别任务中表现出色，但在处理真实世界的复杂视觉场景时仍然困难重重。这就像一个人在明亮的博物馆里能清楚识别名画，但在昏暗的古董店里就容易看错物品。未来的AI系统需要更强的视觉鲁棒性，能够处理模糊、遮挡、角度偏差等现实条件下的视觉信息。

　　第二个重要启示是长期推理和错误传播的问题。当前AI系统缺乏有效的自我纠错机制，一旦在早期步骤中犯错，错误就会在后续推理中不断放大。这就像一个GPS系统在最初定位错误后，所有后续的导航指令都变得毫无意义。未来的AI需要具备更强的自我监控和纠错能力，能够在推理过程中识别和修正错误。

　　工具协调和策略规划是另一个需要改进的重要方面。测试结果显示，不同AI系统在工具使用上有着显著的偏好差异，但很少有系统能够真正做到根据任务特点灵活选择最合适的工具组合。这就像不同的工匠都有自己偏好的工具，但优秀的工匠应该能够根据工作需要选择最合适的工具。

　　多次尝试实验揭示了一个有趣的现象：AI系统往往具备找到正确答案的能力，但缺乏识别正确答案的能力。这个发现指向了一个重要的研究方向：开发更好的自我评估和答案验证机制。未来的AI系统需要具备类似人类的直觉，能够判断自己的答案是否合理。

　　测试还发现，现实世界的任务复杂性主要不来源于单一技能的难度，而来源于多种技能的协调使用。这就像演奏交响乐的难点不在于单个乐器的演奏技巧，而在于所有乐器的协调配合。未来的AI发展需要更多关注不同能力模块之间的整合和协调。

　　开源和闭源模型之间的性能差距也值得关注。虽然开源社区在推动AI技术普及方面发挥了重要作用，但在处理复杂多模态任务方面仍有很大改进空间。这个差距不仅反映了计算资源和数据规模的差异，更反映了在系统架构和训练方法上的技术差距。

　　从应用角度看，AgentVista的发现对于AI产品开发也有重要指导意义。当前很多AI应用都专注于单一功能的优化，比如更好的图像识别或更准确的文本生成。但真正的用户价值往往需要多种功能的无缝整合。未来的AI产品需要更多关注用户的端到端体验，而不是单点功能的极致优化。

　　这项研究还提醒我们，AI能力的评估需要更贴近真实应用场景。传统的基准测试虽然有助于技术发展，但可能会产生误导性的乐观预期。只有在真实复杂的任务中测试AI系统，才能真正了解其实际能力和局限性。

　　最后，AgentVista的结果表明，通用人工智能的实现仍然需要在多个维度上取得突破。这不仅包括提升单一能力的性能上限，更重要的是解决能力整合、长期推理、自我监控等系统性挑战。这就像建造一座摩天大楼，不仅需要优质的建材，更需要精良的设计和施工技术。

　　说到底，AgentVista为AI研究社区提供了一个珍贵的现实检验机会。它让我们看到了当前AI技术的真实水平，也为未来的改进指明了方向。虽然测试结果显示我们距离真正的AI助手还有很长的路要走，但正如所有伟大的旅程一样，清楚地知道起点和终点同样重要。

　　这项研究不仅为AI技术发展提供了新的评估标准，更重要的是为我们思考AI的未来应用提供了现实的参考框架。在AI技术日新月异的今天，像AgentVista这样贴近真实需求的评估工具将帮助我们更好地理解技术的真实进展，避免过度炒作，专注于解决实际问题。对于普通用户而言，这意味着我们可以对AI技术抱有合理的期待，既不盲目乐观也不过分悲观，而是基于科学的评估来判断AI能为我们的生活带来什么样的改变。

　　A：AgentVista主要考察AI在真实场景中同时使用多种技能解决复杂问题的能力，包括看图理解、网络搜索、图像处理和数学计算等技能的协调运用。它包含209道来自真实生活的挑战题目，涵盖购物、旅行、技术诊断、体育分析等七大类25个细分领域。

　　A：表现令人意外地不理想。即使是最好的Gemini-3-Pro模型，准确率也只有27.3%，意味着十道题只能答对不到三道。大部分模型需要平均12次以上的工具调用才能完成一个任务，有些复杂任务甚至需要超过25次工具交互，显示出当前AI在处理现实复杂任务时仍有很大改进空间。

　　A：最主要的失败原因是视觉误识别，占所有错误的40%以上。AI经常在识别图片细节时出错，然后基于错误信息进行后续推理，导致整个解题过程偏离正确方向。其次是知识幻觉问题，AI会生成看似合理但实际错误的信息。还有工具执行失败、计算错误和指令误解等问题，反映出AI在长期复杂推理中的不稳定性。

英国·威廉希尔（WilliamHill）中文-授权官方网站

威廉希尔WilliamHill香港科技大学团队发明AI超级助手