攻坚世界模型关键技术，江行智能以工业物理 AI 赋能真实场景落地

日前，人工智能顶会 ICLR 2026 最新收录名单发布，江行智能凭借物理 AI领域的持续创新，两项世界模型研究成果成功入选，攻克多任务、高保真、高效率协同难题，进一步巩固公司在工业物理 AI赛道的技术领先性。

在具身智能与通用机器人快速发展的背景下，世界模型已成为 AI 理解物理常识、实现样本高效学习的核心技术，但传统方案在复杂工业场景中难以平衡多任务适配、图像还原精度与模型运算效率，无法满足物理 AI 与工业现场的实际应用要求。

江行智能本次推出的 MoW 与 OC-STORM 两项创新成果，分别从模型架构与视觉表征层面实现系统性突破：

MoW：专才协作，决胜全局

针对多任务学习普遍存在的固有矛盾，传统单一模型难以兼顾多元任务需求，易产生性能权衡短板。MoW 创新构建世界模型混合专家架构，摒弃通用型单模型的设计思路，转而培育差异化专精的子专家模型，并通过动态调度机制实现智能协同组合。

该架构主要由三大核心模块构成：一是专家池，搭载共享基础层、配备独立适配单元的轻量化世界模型，各专家模型分别聚焦特定任务与场景，形成专业化能力分工；二是路由网络，作为轻量化调度单元，可结合实时环境上下文，稀疏且精准激活适配当前场景的核心专家；三是协同预测模块，整合多组激活专家的输出结果，完成高精度世界状态推演。依托模块化协同架构，MoW 在 Atari 100k 多任务基准测试中表现优异，综合性能全面优于传统单一模型，无限逼近分任务独立训练的性能理论上限，同时有效控制模型参数量与运算开销，在多任务场景下实现效果、效率与成本的多维平衡。

OC-STORM：洞察本质，以简驭繁

高保真视频预测任务，要求模型精准解析场景内个体运动规律与动态交互关系。OC-STORM 实现技术突破，将物体中心化视觉表征理念与 STORM 先进世界模型架构深度融合，构建全新视频预测范式。

模型依托视觉编码器，逐帧拆解画面信息，生成离散化、物体维度的独立潜在表征；再基于结构化物体表征完成时序学习与逻辑推理，预判物体未来状态演变；最终通过解码器，依据预测结果重构高清未来画面。

该架构使模型脱离无序像素级学习局限，聚焦物体本质运动特征与物理交互逻辑，显著强化推理精度与通用泛化能力。在长时程视频预测场景中，OC-STORM 画面清晰度与时序一致性表现位居行业前列，为各类高精度物理推演场景，筑牢高阶视觉感知技术底座。

这些技术突破直接指向工业物理 AI核心痛点：MoW 支撑工业智能大脑灵活适配巡检、操作、诊断等多样化任务，实现跨场景知识共享与快速扩展；OC-STORM 解决工业现场背景复杂、目标细小、数据稀缺等问题，提升设备状态监测与异常预判能力。

未来，江行智能将继续以物理 AI为核心方向，深化世界模型、具身智能与工业场景的融合创新，持续把前沿技术转化为可落地、可复制、可演进的工业物理 AI解决方案，与生态伙伴携手推动人工智能成为千行百业的新型生产力。