大模型竞赛进入深水区,商汤用”多模态+具身”破局

2025年世界人工智能大会的展台上,一个身着白色制服的人形机器人正用略带生动的口吻讲解唐代荔枝运输史。当观众突然提问”杜牧’一骑红尘妃子笑’中的马匹具体是哪种驿站马”时,它没有卡壳,而是快速调取出唐代驿站分布图PPT,在翻页间隙还补了一句:”根据《唐六典》记载,岭南驿站多用滇马,虽然速度不及中原快马,但耐力更适合长途运输。”回答完毕后,它又自然切回原讲稿,继续讲述”杨贵妃所食荔枝需经子午谷道快马接力”的细节。

这个看似简单的演示,揭开了当前大模型行业最核心的命题——当纯语言模型的”知识搬运”能力趋于饱和,当互联网高质量文本数据增速落后于算力膨胀,当具身智能所需的主动交互数据采集成本居高不下,AI该如何突破”大力出奇迹”的路径依赖?

多模态的深水区:从”融合理解”到”动态思考”

作为计算机视觉领域的”老兵”,商汤科技用十年技术积累给出了独特答案。在大会论坛上,商汤联合创始人林达华提出了一个颠覆性的观点:”真正的智能不应困在文本框里,而是要能像人类一样,用图像推演逻辑,用语言总结结论,形成’图文交错的思维链’。”

这一判断直击行业痛点。当前主流大模型的多模态能力停留在”信息融合”阶段——将图像、文本等不同模态数据输入模型,输出关联结果。但人类思考时,往往会先在脑海中构建图像(比如想象荔枝从岭南到长安的路线图),再用语言描述这个过程,甚至在推演中发现矛盾(比如发现某段驿站距离过远,马匹无法一日到达),进而调整假设。这种”动态思考”能力,需要模型不仅能”理解”多模态信息,更能”生成”新信息进行推理验证。

为实现这一目标,商汤选择了一条”以视觉为根,向思维生长”的技术路径。一方面,利用其在计算机视觉领域积累的万亿级图像/视频数据,构建”视觉思维基座”;另一方面,通过”专家数据+合成数据”的双轮驱动,解决”人类思考过程数据稀缺”的难题。例如,在训练”荔枝运输”相关模型时,商汤不仅使用历史文献中的路线图,更通过AI生成数千种”假设场景”——比如模拟暴雨导致某段驿道中断时,古人可能的替代路线,并让模型在这些虚拟场景中进行”思维演练”。这种”以AI为AI造数据”的方式,将训练数据的”思维密度”提升了5倍以上。

效率革命:大模型的”瘦身”与”增智”

技术突破的背后,是成本与性能的艰难平衡。商汤此次发布的日日新6.5多模态大模型,用”更扁平的视觉编码器+更纵深的语言模型中枢”的全新架构,交出了一份亮眼答卷:6000亿参数的混合专家(MoE)模型,通过优化参数分配,推理成本降至原成本的30%;而150亿参数的轻量版本,在复杂推理任务中性能已达6000亿模型的95%。

这种”瘦身增智”的背后,是商汤对行业趋势的精准判断。过去几年,大模型行业陷入”参数军备竞赛”,但实际应用中,90%的企业需求并不需要”全能型”千亿模型,而是需要”在特定场景下足够聪明”的高效模型。商汤的模型架构创新,正是要让大模型从”实验室里的庞然大物”,变成”能走进企业车间的实用工具”。

从数字Agent到物理伙伴:具身智能的”场景渗透”

如果说多模态大模型是商汤的”技术底座”,那么其正在落地的Agent(智能体)生态,就是将技术转化为价值的关键抓手。

在大会现场,商汤展示了其Agent家族的代表——小浣熊。这个专注于复杂数据分析的数字Agent,在处理企业真实场景中的”混乱数据”时表现惊艳:面对包含合并单元格、跨表引用、图文混排的财务报表,小浣熊的解析准确率达到98.7%,比当前主流大模型高出近10个百分点。某制造业客户测试显示,用小浣熊分析月度生产报表并生成优化建议,耗时从人工处理的4小时缩短至15分钟,错误率降低70%。

但商汤的野心不止于数字世界。在WAIC展区,由元萝卜下棋机器人、小米AI眼镜、傅利叶人形机器人等组成的”硬件生态”,正在演示”物理智能体”的潜力:人形机器人能根据用户的自然语言指令,自主规划从厨房到客厅的路径,避开障碍物并端起水杯;AI眼镜则能实时识别环境中的设备故障,用语音提示维修人员并标注故障点。这些设备的”智能大脑”,均由商汤提供——对于消费电子厂商而言,自研顶尖交互模型的成本高达数千万,而商汤的”开箱即用”方案,将成本压缩至十分之一。

AGI不是冲刺是马拉松:商汤的”沿途下蛋”哲学

在商汤的AGI(通用人工智能)路线图中,没有”超级智能体”的宏大叙事,只有”让AI先成为得力助手”的务实目标。正如商汤首席科学家林达华所说:”真正的智能,是一个体与世界自主交互的能力。这种能力需要从具体场景中生长出来,而不是靠实验室里的参数堆砌。”

这种务实,源于商汤对行业周期的深刻理解。过去十年,AI行业经历过多次”寒冬”——当技术无法落地,当用户用不上、企业赚不到钱,热情便会消退。因此,商汤选择了一条”长跑路线”:在打磨基础模型的同时,通过”沿途下蛋”的方式,在垂直场景中创造商业价值。小浣熊帮助企业降本增效,硬件生态为用户提供智能服务,这些”蛋”不仅能为研发提供资金反哺,更能在真实应用中收集反馈,反哺模型迭代。

在WAIC的闭幕演讲中,商汤CEO徐立用那个会讲PPT的机器人作为隐喻:”它不是要成为最聪明的AI,而是要证明,AI已经能像人类一样,在真实场景中完成复杂的、需要理解和记忆的任务。这不是终点,而是起点——当每个企业都能用得起智能助手,当每个家庭都有贴心的物理伙伴,AGI才会真正从想象照进现实。”

从多模态大模型的技术突破,到Agent生态的场景落地,再到具身智能的平台化探索,商汤正在用一条”多模态为基、具身为翼、场景为根”的独特路径,重新定义大模型的未来。在这场需要耐力的马拉松中,或许真正的赢家,从来不是跑得最快的,而是最懂得如何在途中补充能量、持续前进的行者。

为您推荐