近日,飞捷科思智能科技(上海)有限公司(Fysics AI)与复旦大学认知与智能技术实验室(CITLab)联合推出了全球首个面向真实物理世界的统一全模态评测基准——FysicsWorld。这一里程碑式的成果,旨在解决当前人工智能领域“偏科”严重的难题,为未来AI从“屏幕里的对话者”进化为“真实世界的行动者”提供一套全面严苛而精准的“体检标准”。

图:FysicsWorld全模态智能评测体系示意图
AI进化的新门槛:从“看图说话”到“感知现实”
过去几年,以ChatGPT、DeepSeek为代表的AI模型让我们见证了人工智能在聊天对话上的惊人能力。然而,要让AI真正理解并感知物理世界,仅凭“聊天能力”远远不够。因此,更强的物理AI成为业内共识。英伟达CEO黄仁勋就将其视为AI发展的核心方向。2025年他在CES、GTC等重要场合多次阐述物理AI,称其为AI发展的“下一波浪潮”。曾经的全球首富亚马逊前CEO贝索斯更是亲自下场,参与创立将AI应用于物理任务的“普鲁米修斯项目”(Project Prometheus),并将担任联席CEO。
众所周知,现实物理环境中的信息并非以单一模态出现,而是以图像、声音、视频等多种信号交织存在:例如,根据真实场景画面变化和环境音来辨别物体状态,判断事件走向,或从连续视频中理解物理过程与因果关系。AI需要像人类一样,只有同时调用视觉、听觉、语言等多种“感官”,去学习复杂的物理规律,感知真实现实环境,才可能真正理解物理世界中的复杂情况。目前的AI评测体系大多还停留在“纸上谈兵”阶段:要么只进行文本内容“阅读理解”,要么仅针对图片、视频、声音内容进行简单考察,无法反映AI在现实场景下进行综合感知、物理理解与一致决策的能力。为了打破这一僵局,由英伟达PhysX物理引擎的主要奠基人与研发团队负责人张立华教授创办,是国内唯一拥有完全自主研发的可微分通用物理仿真引擎产品的企业,飞捷科思智能科技的FysicsWorld应运而生。
FysicsWorld:一场从“教科书”走向“真实世界”的实地演习
如果说传统的AI评测是考场里的“教科书笔试”,那么FysicsWorld就是一场把AI模型拉进复杂真实世界中的“全能实地演习”。该基准包含了视觉、听觉、语言及其相互协作的16大类高难度综合任务,涉及上百种真实的物理生活场景。它不仅要求AI能看图说话、看懂视频、听懂声音,还要求AI必须像福尔摩斯一样,整合视觉线索、听觉信号和物理常识进行深度推理。比如,在测试中,AI可能需要观察一段无声的物体碰撞视频,并结合物理规律精准预测它发出的声音特征;或者在一段嘈杂的视频中,通过声音的变化反推画面中没有显示的物体运动轨迹或预测人类运动行为。这些任务极大地考验了AI对真实物理世界规律的认知深度。
独创“防作弊”机制,拒绝AI走捷径
在以往的众多测试中,聪明的AI往往会通过“猜题”来拿高分,例如仅通过文字提示就猜出答案,而完全忽略了图像信息。为了杜绝这种“伪智能”,FysicsWorld创新性地引入了跨模态互补性筛选策略。这就好比在考试中设置了连环锁:所设计的题目必须同时通过“看”和“听”等多感官信息才能解开。如果AI试图只用一只“眼睛”或一只“耳朵”去蒙混过关,就会被FysicsWorld系统识别并判定失败。这种严格的筛选机制,确保了只有真正具备多感官融合能力的AI模型才能通过测试。
通往真正具身智能的关键一步
研究显示,即便是目前顶尖的AI模型,在面对FysicsWorld考核中复杂的真实世界场景理解推理任务以及人机交互任务时,也暴露出了明显的短板。这恰恰指明了下一代人工智能的进化方向。FysicsWorld的发布,不仅为全球AI研发团队提供了一把精准的物理“标尺”来诊断模型缺陷,更将加速全模态智能时代的到来。
在此基础上,飞捷科思智能科技还将以新一代物理仿真引擎 Fysics为核心,打造全球领先的物理智能关键技术与产品,推动具身智能与人形机器人技术研发及应用场景的快速落地,在高精度物理仿真引擎、高质量具身智能仿真平台、机器人敏捷运动与鲁棒智能控制等领域处于行业领先水平,并向行业提供覆盖“仿真—训练—部署—迭代”的全栈解决方案。依托自主可控的物理智能底座,公司持续赋能中国具身智能与机器人产业的发展。
飞捷科思智能科技创始人张立华教授表示,FysicsWorld可为全球AI研发团队提供统一的“测试平台”,加速全能型AI技术的升级,让人工智能更安全、自然地融入工业制造、智能家居、机器人服务等真实场景,为我国智能产业发展打下更为坚实的技术基础。



