过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。但一个更关键的问题是:当问题不再能“用语言说清楚”时,模型还能不能“看懂”?为了测评模型能不能“看懂”,以及能“看懂”多少,红杉中国xbench携手UniPat AI团队,并联合多家大模型公司与高校的研究员,发布新的多模态理解评测集BabyVision。
如果一个视觉问题可以完全用文字描述且不丢信息,它本质上就会退化成文本题。模型可以靠强大的语言推理能力一路通关,看起来很会“看”,其实是在走语言捷径。而真正的视觉能力,需要在没有语言扶梯的情况下完成:比较、追踪、空间想象、模式归纳。
Google DeepMind创始人Demis Hassabis曾提到类似观点:“大模型可以在国际数学奥林匹克拿金牌,却会在小学几何题上出错;它能生成惊艳图像,却不理解杯子为什么不会飘在空中。”
回顾xbench的双轨评估体系,我们将评估基准划分为AGI Tracking赛道与Profession Aligned赛道,分别用于追踪模型的AGI演进进程,以及模型在真实世界中的经济与实用价值。BabyVision属于xbench双轨评估中AGI Tracking系列的多模态评估集。展望2026年,我们判断世界模型与视觉多模态将迎来新一轮突破性进展。值此开年之际,UniPat AI联合xbench率先抛出关键问题和全新“考卷”,以此迎接并参与新一轮技术突破的到来。
核心要点:
多模态大模型在不依赖语言提示时的视觉基础能力仍明显不足,整体表现甚至落在“三岁幼儿”水平区间。
BabyVision将视觉能力拆为4大类(精细辨别、视觉追踪、空间感知、视觉模式识别)共22个子任务,用于定位模型视觉地基的具体短板。
评测结果显示人类与模型差距悬殊,人类基线准确率达94.1%;闭源最强Gemini3-Pro-Preview为49.7%,其后GPT-5.2为34.8%、Doubao-1.8为30.2%;开源最强Qwen3VL-235B-Thinking为22.2%。
关键原因在于很多题无法被完整语言化,研究将其概括为“unspeakable”,即视觉细节难以无损压缩成token,模型一旦走先复述再推理的语言捷径,关键信息会在压缩中丢失。
BabyVision提出另一个新方向:让模型画出来。BabyVision-Gen从基准中重标注280道适合生成式作答的题,要求模型用图像/视频输出解题过程;自动评测与人工一致性达96%,并观察到在追踪、精细辨别等任务上更接近人类操作。
团队认为真实世界不靠语言提示;BabyVision的价值在于把“看懂世界”拆成可测量、可诊断、可迭代的22个原子能力,为多模态与具身智能补齐视觉短板提供路线图。
让顶尖模型和孩子做同一张试卷
BabyVision 先做了一项非常直接的对比实验:把20道视觉中心任务(vision-centric)作为BabyVision-Mini交给不同年龄段孩子(3/6/10/12岁)和当下顶尖多模态模型来做。
这份“小试卷”要求严格控制语言依赖:题目要求很简单,答案必须靠视觉信息本身得出。而最终评测结果显示:在“看懂世界”这方面,大模型还没上幼儿园:

• 大多数模型的分数,聚集在明显低于平均3岁儿童的区间;
• Gemini3‑Pro‑Preview是唯一稳定超过3岁基线的模型,但距离6岁儿童仍差约20个百分点。
下面是其中一道题,直观且反直觉,连线垃圾分类,小孩可以轻松做对,但顶尖模型追踪一条线都能追丢。
三件物品沿着线分别连到哪个颜色垃圾桶?


• 正确答案:A-蓝,B-黄,C-绿
• 模型答案(Gemini3-Pro-Preview):A-绿,B-黄,C-蓝
人类的解法几乎是本能,从点出发沿线走到终点(右侧照片是三岁幼儿真实做题痕迹)。但模型会写出一大段“逐段追踪”的推理,最后仍把两条路径接反:看起来“很会分析”,其实在最基础的视觉追踪上掉线。
BabyVision‑Full把视觉能力拆成4大类
研究团队将视觉能力提炼为四大核心类别,每类下细分若干子任务:
• 精细辨别(Fine-grained Discrimination):分辨细微的视觉差异(8 个子任务)
• 视觉追踪(Visual Tracking):跟随路径、线条与运动轨迹(5 个子任务)
• 空间感知(Spatial Perception):理解三维结构及其关系(5 个子任务)
• 视觉模式识别(Visual Pattern Recognition):识别逻辑与几何规律(4 个子任务)
这套设计的核心理念很明确:不是为了“刁难”模型,而是量化那些“人类直觉就会、但构成智能地基”的视觉原子能力。这同样是具身智能(embodied AI)走向现实世界的必修课。
为了最大程度确保“纯视觉”考核的有效性,BabyVision在数据构建上也下足了工夫。项目团队首先参考了儿童认知教材和视觉发育测验,梳理出了上述4大类共22种基础视觉子任务。
接着,每个子技能挑选出4-5个种子示例(种子图片),作为该类型任务的典型代表。基于这些种子示例,研究者利用逆向图像搜索和关键词搜索,从互联网上爬取了约4000张相似的候选图片。在数据收集过程中,团队严格遵守版权规范,只挑选可用于非商业或学术用途的素材,并过滤掉可能包含大量文字说明或需要文化常识才能理解的图片。
由此获得的海量图片进入人工标注环节:多名专业人员逐一检查图片,筛除不适合出题的样本,对保留下来的图片精心设计问题和标准答案。为了确保答案的客观正确,每个问题还附有详细的“解题过程”说明,以证明答案确实可由视觉推理得出。
最终,所有标注完成的问题都经过“双盲质检”——两位独立专家交叉审核,每道题只有在双方都认可其答案无误、推理严谨的情况下才被收录 ;若出现异议则退回修改,反复仍无法达成一致的题目则果断弃用。经过这一系列严苛的筛选,BabyVision最终产出了388道高质量视觉题目,涵盖22种子任务。
最终评测结果:
在BabyVision‑Full上,研究团队引入了人类基线,16位至少本科背景的测试者完成全量388题,人类准确率达94.1%。
再看模型:
• 闭源最强:Gemini3‑Pro‑Preview为49.7%
开源侧:
• 最强模型(Qwen3VL‑235B‑Thinking)整体为22.2%,多数模型在12–19%区间。
更关键的是:差距不是集中在某一个类别。四大类能力都在下滑,说明这是“系统性缺基础视觉能力”,而非某个单点缺陷。 一些子任务甚至几乎“全员翻车”,例如Count 3D Blocks在多模型中普遍偏低,暴露的是模型结构化场景能力不足。

为什么会这样?这些题目unspeakable
最反直觉的地方在于:BabyVision里的很多题,对人类来说不难,甚至孩子会用指一指、圈一圈、沿着线走一遍就搞定。但模型一旦用文字去“复述”视觉,再用语言推理去算,信息就丢了。研究团队把这种现象概括为:“这些视觉题是“unspeakable”的,无法在不损失信息的情况下被完整语言化;模型试图把视觉压缩成token,细节在压缩中消失。”
并进一步总结了4类典型挑战:
挑战 1
“非语言细节”
(Observing Non-Verbal Details)

比如拼图/补全题里,选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位。人类凭几何直觉“对齐边界”就能秒选,但模型一旦把形状用语言概括成“像钩子、两个腿、差不多七八个六边形”,细节就被抹平,选项在token空间里变得“几乎一样”。
挑战 2
追线追丢了
(Manifold Understanding)

连线/绕线/轨迹题,答案编码在“连通性”里:人类是锁定一条线→穿过交叉→一路追到终点;模型往往把线翻译成“左/右/上/下”的离散步骤,一遇到交叉点就出现分叉爆炸,容易“换轨”追错线。
挑战 3
缺少真正的空间想象
(Spatial Imagination)

三维方块计数、视角投影、遮挡下的结构判断,人类通常不是“用语言一步步描述”,而是把结构在脑中“立起来”,换个角度看,再数。模型则容易犯两类错误:漏掉隐藏块、投影关系搞错。这不是逻辑差,而是缺少稳定的3D内部表征与变换能力。
挑战 4
图形规律归纳难
(Visual Pattern Induction)

这类题要求从少量视觉示例里抽象出规则,再迁移到新图。人类做的是关系映射,真正决定正确性的是“发生了什么变化”而不是“那里有什么”,具体的形状、颜色、绝对位置都可以变,只有它们在变换中的“身份”不变。模型常常盯着表面属性(颜色、形状),把“结构规则”误读成“外观统计”,导致迁移时幻觉规则。
BabyVision‑Gen给出一个新方向
当文本推理不够用,一个自然的问题出现了:能不能让模型像孩子一样,用画、圈、连线、描轨迹来作答?
于是,有了BabyVision‑Gen:
• 从原基准中重新标注出280道适合“生成式作答”的题
• 要求模型输出图像/视频来表达解题过程或答案
• 并开发了自动评测工具,与人工评测一致性达96%
研究团队在BabyVision‑Gen上评测了多种生成模型(包括 Nano‑Banana‑Pro、Qwen‑Image、Veo‑3、Sora‑2)。现阶段得到的结论很克制但重要:
• 生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现“更像人类”的行为(会真的去画轨迹、做标注);
• 但整体仍然缺乏稳定到达完全正确解的能力。
这至少说明:把视觉推理“落地到视觉操作”上,可能是补齐短板的一条路。
下面看一个具体的例子:用红线沿着从左上角图形延伸出的那条线,完整地描出其全程路径。
Sora2

NanoBanana-pro

为什么BabyVision重要?
正如研究团队在Blog中所写:“很难想象一个视觉能力低于3岁孩子的,能够可靠地在真实物理世界里帮助人类。”
(https://unipat.ai/blog/BabyVision)
今天,多模态模型“会说会写”已经很强,但要走向真正的通用智能与具身智能,视觉地基必须补上:看得准(细粒度辨别),追得住(轨迹/连通性),想得出(3D结构想象),归纳得了(图形规则迁移)。
因此,BabyVision的价值正在于:把“看懂世界”拆成可测量、可诊断、可迭代的22个原子能力,告诉我们差距到底在哪里、下一步该补什么,从而引导多模态大模型发展。
开源地址
website
https: //xbench.org/
blog
https://unipat.ai/blog/BabyVision
github
https://github.com/UniPat-AI/BabyVision
huggingface
https://huggingface.co/collections/UnipatAI/babyvision
xbench
红杉中国于2025年5月底正式推出一款全新的AI基准测试工具xbench,并发布论文《xbench: Tracking Agents Productivity,Scaling with Profession-Aligned Real-World Evaluations》。
xbench采用双轨评估体系,构建多维度测评数据集,旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线:(1)评估AI系统的能力上限与技术边界;(2)量化AI系统在真实场景的效用价值(Utility Value)。同时xbench采用长青评估(Evergreen Evaluation)机制,通过持续维护并动态更新测试内容,以确保时效性和相关性。

xbench在AGI Track首期发布包含两个核心评估集:科学问题解答测评集(xbench-ScienceQA)与中文互联网深度搜索测评集(xbench-DeepSearch),除此次发布面向多模态的BabyVision外,即将发布面向Agent指令遵循AgentIF。
xbench此前提出了垂直领域智能体的评测方法论,并构建了面向招聘(Recruitment)和营销(Marketing)领域的垂类Agent评测框架。后续会陆续发布覆盖Biotechnology、Finance、Legal等场景的垂类评测集。
***
UniPat
UniPat AI 致力于构建真实场景下AI训练、评测与应用的新范式,推动其实现可泛化、可信赖的真实世界部署,并创造切实的经济与社会价值。

