搜狐订阅:闲卡宝-多模态大模型输给三岁宝宝？xbench x UniPat联合发布新评测集BabyVision

　　过去一年，大模型在语言与文本推理上突飞猛进：论文能写、难题能解、甚至在顶级学术/竞赛类题目上屡屡刷新上限。但一个更关键的问题是：当问题不再能“用语言说清楚”时，模型还能不能“看懂”？为了测评模型能不能“看懂”，以及能“看懂”多少，红杉中国xbench携手UniPat AI团队，并联合多家大模型公司与高校的研究员，发布新的多模态理解评测集BabyVision。

　　如果一个视觉问题可以完全用文字描述且不丢信息，它本质上就会退化成文本题。模型可以靠强大的语言推理能力一路通关，看起来很会“看”，其实是在走语言捷径。而真正的视觉能力，需要在没有语言扶梯的情况下完成：比较、追踪、空间想象、模式归纳。

　　Google DeepMind创始人Demis Hassabis曾提到类似观点：“大模型可以在国际数学奥林匹克拿金牌，却会在小学几何题上出错；它能生成惊艳图像，却不理解杯子为什么不会飘在空中。”

　　回顾xbench的双轨评估体系，我们将评估基准划分为AGI Tracking赛道与Profession Aligned赛道，分别用于追踪模型的AGI演进进程，以及模型在真实世界中的经济与实用价值。BabyVision属于xbench双轨评估中AGI Tracking系列的多模态评估集。展望2026年，我们判断世界模型与视觉多模态将迎来新一轮突破性进展。值此开年之际，UniPat AI联合xbench率先抛出关键问题和全新“考卷”，以此迎接并参与新一轮技术突破的到来。

　　核心要点：

　　   多模态大模型在不依赖语言提示时的视觉基础能力仍明显不足，整体表现甚至落在“三岁幼儿”水平区间。

　　 BabyVision将视觉能力拆为4大类（精细辨别、视觉追踪、空间感知、视觉模式识别）共22个子任务，用于定位模型视觉地基的具体短板。

　　评测结果显示人类与模型差距悬殊，人类基线准确率达94.1%；闭源最强Gemini3-Pro-Preview为49.7%，其后GPT-5.2为34.8%、Doubao-1.8为30.2%；开源最强Qwen3VL-235B-Thinking为22.2%。 

　　关键原因在于很多题无法被完整语言化，研究将其概括为“unspeakable”，即视觉细节难以无损压缩成token，模型一旦走先复述再推理的语言捷径，关键信息会在压缩中丢失。

　　 BabyVision提出另一个新方向：让模型画出来。BabyVision-Gen从基准中重标注280道适合生成式作答的题，要求模型用图像/视频输出解题过程；自动评测与人工一致性达96%，并观察到在追踪、精细辨别等任务上更接近人类操作。

　　团队认为真实世界不靠语言提示；BabyVision的价值在于把“看懂世界”拆成可测量、可诊断、可迭代的22个原子能力，为多模态与具身智能补齐视觉短板提供路线图。

　　让顶尖模型和孩子做同一张试卷

　　BabyVision 先做了一项非常直接的对比实验：把20道视觉中心任务（vision-centric）作为BabyVision-Mini交给不同年龄段孩子（3/6/10/12岁）和当下顶尖多模态模型来做。

　　这份“小试卷”要求严格控制语言依赖：题目要求很简单，答案必须靠视觉信息本身得出。而最终评测结果显示：在“看懂世界”这方面，大模型还没上幼儿园：

　　• 大多数模型的分数，聚集在明显低于平均3岁儿童的区间；

　　• Gemini3‑Pro‑Preview是唯一稳定超过3岁基线的模型，但距离6岁儿童仍差约20个百分点。

　　下面是其中一道题，直观且反直觉，连线垃圾分类，小孩可以轻松做对，但顶尖模型追踪一条线都能追丢。

　　三件物品沿着线分别连到哪个颜色垃圾桶？

　　• 正确答案：A-蓝，B-黄，C-绿

　　• 模型答案（Gemini3-Pro-Preview）：A-绿，B-黄，C-蓝

　　人类的解法几乎是本能，从点出发沿线走到终点（右侧照片是三岁幼儿真实做题痕迹）。但模型会写出一大段“逐段追踪”的推理，最后仍把两条路径接反：看起来“很会分析”，其实在最基础的视觉追踪上掉线。

　　BabyVision‑Full把视觉能力拆成4大类

　　研究团队将视觉能力提炼为四大核心类别，每类下细分若干子任务：

　　• 精细辨别（Fine-grained Discrimination）：分辨细微的视觉差异（8 个子任务）

　　• 视觉追踪（Visual Tracking）：跟随路径、线条与运动轨迹（5 个子任务）

　　• 空间感知（Spatial Perception）：理解三维结构及其关系（5 个子任务）

　　• 视觉模式识别（Visual Pattern Recognition）：识别逻辑与几何规律（4 个子任务）

　　这套设计的核心理念很明确：不是为了“刁难”模型，而是量化那些“人类直觉就会、但构成智能地基”的视觉原子能力。这同样是具身智能（embodied AI）走向现实世界的必修课。

　　为了最大程度确保“纯视觉”考核的有效性，BabyVision在数据构建上也下足了工夫。项目团队首先参考了儿童认知教材和视觉发育测验，梳理出了上述4大类共22种基础视觉子任务。

　　接着，每个子技能挑选出4-5个种子示例（种子图片），作为该类型任务的典型代表。基于这些种子示例，研究者利用逆向图像搜索和关键词搜索，从互联网上爬取了约4000张相似的候选图片。在数据收集过程中，团队严格遵守版权规范，只挑选可用于非商业或学术用途的素材，并过滤掉可能包含大量文字说明或需要文化常识才能理解的图片。

　　由此获得的海量图片进入人工标注环节：多名专业人员逐一检查图片，筛除不适合出题的样本，对保留下来的图片精心设计问题和标准答案。为了确保答案的客观正确，每个问题还附有详细的“解题过程”说明，以证明答案确实可由视觉推理得出。

　　最终，所有标注完成的问题都经过“双盲质检”——两位独立专家交叉审核，每道题只有在双方都认可其答案无误、推理严谨的情况下才被收录；若出现异议则退回修改，反复仍无法达成一致的题目则果断弃用。经过这一系列严苛的筛选，BabyVision最终产出了388道高质量视觉题目，涵盖22种子任务。

　　最终评测结果：

　　在BabyVision‑Full上，研究团队引入了人类基线，16位至少本科背景的测试者完成全量388题，人类准确率达94.1%。

　　再看模型：

　　• 闭源最强：Gemini3‑Pro‑Preview为49.7%

　　开源侧：

　　• 最强模型（Qwen3VL‑235B‑Thinking）整体为22.2%，多数模型在12–19%区间。

　　更关键的是：差距不是集中在某一个类别。四大类能力都在下滑，说明这是“系统性缺基础视觉能力”，而非某个单点缺陷。一些子任务甚至几乎“全员翻车”，例如Count 3D Blocks在多模型中普遍偏低，暴露的是模型结构化场景能力不足。

　　为什么会这样？这些题目unspeakable

　　最反直觉的地方在于：BabyVision里的很多题，对人类来说不难，甚至孩子会用指一指、圈一圈、沿着线走一遍就搞定。但模型一旦用文字去“复述”视觉，再用语言推理去算，信息就丢了。研究团队把这种现象概括为：“这些视觉题是“unspeakable”的，无法在不损失信息的情况下被完整语言化；模型试图把视觉压缩成token，细节在压缩中消失。”

　　并进一步总结了4类典型挑战：

　　挑战 1

　　“非语言细节”

　　（Observing Non-Verbal Details）

　　比如拼图/补全题里，选项差别可能只是一个微小边界、一个局部凸起、一个像素级错位。人类凭几何直觉“对齐边界”就能秒选，但模型一旦把形状用语言概括成“像钩子、两个腿、差不多七八个六边形”，细节就被抹平，选项在token空间里变得“几乎一样”。

　　挑战 2

　　追线追丢了

　　（Manifold Understanding）

　　连线/绕线/轨迹题，答案编码在“连通性”里：人类是锁定一条线→穿过交叉→一路追到终点；模型往往把线翻译成“左/右/上/下”的离散步骤，一遇到交叉点就出现分叉爆炸，容易“换轨”追错线。

　　挑战 3

　　缺少真正的空间想象

　　（Spatial Imagination）

　　三维方块计数、视角投影、遮挡下的结构判断，人类通常不是“用语言一步步描述”，而是把结构在脑中“立起来”，换个角度看，再数。模型则容易犯两类错误：漏掉隐藏块、投影关系搞错。这不是逻辑差，而是缺少稳定的3D内部表征与变换能力。

　　挑战 4

　　图形规律归纳难

　　（Visual Pattern Induction）

　　这类题要求从少量视觉示例里抽象出规则，再迁移到新图。人类做的是关系映射，真正决定正确性的是“发生了什么变化”而不是“那里有什么”，具体的形状、颜色、绝对位置都可以变，只有它们在变换中的“身份”不变。模型常常盯着表面属性（颜色、形状），把“结构规则”误读成“外观统计”，导致迁移时幻觉规则。

　　BabyVision‑Gen给出一个新方向

　　当文本推理不够用，一个自然的问题出现了：能不能让模型像孩子一样，用画、圈、连线、描轨迹来作答？

　　于是，有了BabyVision‑Gen：

　　• 从原基准中重新标注出280道适合“生成式作答”的题

　　• 要求模型输出图像/视频来表达解题过程或答案

　　• 并开发了自动评测工具，与人工评测一致性达96%

　　研究团队在BabyVision‑Gen上评测了多种生成模型（包括 Nano‑Banana‑Pro、Qwen‑Image、Veo‑3、Sora‑2）。现阶段得到的结论很克制但重要：

　　• 生成式推理在视觉追踪、精细辨别等VLM易翻车任务上出现“更像人类”的行为（会真的去画轨迹、做标注）；

　　• 但整体仍然缺乏稳定到达完全正确解的能力。

　　这至少说明：把视觉推理“落地到视觉操作”上，可能是补齐短板的一条路。

　　下面看一个具体的例子：用红线沿着从左上角图形延伸出的那条线，完整地描出其全程路径。

　　Sora2

　　NanoBanana-pro

　　为什么BabyVision重要？

　　正如研究团队在Blog中所写：“很难想象一个视觉能力低于3岁孩子的，能够可靠地在真实物理世界里帮助人类。”

　　（https：//unipat.ai/blog/BabyVision）

　　今天，多模态模型“会说会写”已经很强，但要走向真正的通用智能与具身智能，视觉地基必须补上：看得准（细粒度辨别），追得住（轨迹/连通性），想得出（3D结构想象），归纳得了（图形规则迁移）。

　　因此，BabyVision的价值正在于：把“看懂世界”拆成可测量、可诊断、可迭代的22个原子能力，告诉我们差距到底在哪里、下一步该补什么，从而引导多模态大模型发展。

　　开源地址

　　website

　　https： //xbench.org/

　　blog

　　https：//unipat.ai/blog/BabyVision

　　github

　　https：//github.com/UniPat-AI/BabyVision

　　huggingface

　　https：//huggingface.co/collections/UnipatAI/babyvision

　　xbench

　　红杉中国于2025年5月底正式推出一款全新的AI基准测试工具xbench，并发布论文《xbench： Tracking Agents Productivity，Scaling with Profession-Aligned Real-World Evaluations》。

　　xbench采用双轨评估体系，构建多维度测评数据集，旨在同时追踪模型的理论能力上限与Agent的实际落地价值。该体系创新性地将评测任务分为两条互补的主线：（1）评估AI系统的能力上限与技术边界；（2）量化AI系统在真实场景的效用价值（Utility Value）。同时xbench采用长青评估（Evergreen Evaluation）机制，通过持续维护并动态更新测试内容，以确保时效性和相关性。