AI 智能体落地，北看字节，南看阿里

访客 2025-12-22 16:00:03 10794 抢沙发

默认

AI智能体正在落地，北方以字节跳动为重要阵地，南方则以阿里巴巴为引领，两大科技巨头正积极将人工智能应用于各个领域，推动智能科技的快速发展，字节跳动以其强大的技术实力和创新能力，在智能内容推荐、智能客服等方面取得了显著成果，而阿里巴巴则以其深厚的电商经验和强大的技术背景，在智能物流、智能客服及人工智能金融等领域大放异彩，两大公司的合作与创新将推动AI智能体在国内的普及与发展。

半个月前，腾讯集团汤道生带着团队到访了重庆一家短剧公司麦芽传媒；但是数日后，麦芽传媒的CTO李巍登上了字节跳动火山引擎FORCE原动力大会的舞台。

腾讯想要跟麦芽传媒在云服务、AI技术应用、数字内容联合开发与智能分发上进行合作，而麦芽传媒CTO则公开表达，明年要跟火山引擎在AI漫剧和AI真人剧、短剧AI审核、AI视频精修和播放器智能超分辨率上探索。

云厂商是短剧的「水电煤」，短剧是云厂商的「练兵场」，这是一种既是内容源，又是客户的共生关系。后知后觉的腾讯云能撬动火山引擎的客户吗？

很难替代，且不说红果短剧已经成为行业的绝对头部势力，腾讯元宝在视频模型能力上也落后同期的对手豆包和千问。

火山引擎总裁谭待在提到客户时特意说：「影视创作方面用大模型的进程比我们想象的快一些。之前想到应该很快，没想到能这么快，现在很多短剧、尤其是漫剧，还有各种AD素材，都在用。」

有提升的模型能力，搭配解锁的应用场景，最后才能给云厂商们带来源源不断的新客户。这是过去半年，豆包大模型日处理Tokens超过50万亿、增长200%的背后逻辑。

短剧正在成为云厂商们持续解锁的创新场景之一。不光是字节和腾讯，阿里千问APP也在最近上线了视频生成模型万相2.6，「AI小剧场」就是其中一个具体的玩法，具备音画同步、多镜头生成及声音驱动等多种功能。

阿里和字节是国内AI赛道最大的竞争对手，一个是AI云市场规模第一，一个是AI云市场加速度第一。

就在豆包大模型1.8发布之日，阿里千问App接入首个阿里生态场景高德，开始具备物理世界理解和行动能力，更强的Agent（智能体）能力是它们共同的进化方向，它们瞄准了更细分的用户市场需求。

凭借各自的生态优势进行全产业链的AI布局，这是目前阿里和字节在AI竞争赛道中的状态，但随着竞争深入，这终究是一场零和博弈，还是版图互补？

多模态模型能力是赛点

豆包大模型日均Tokens使用量已突破50万亿，这是火山引擎「秀肌肉」，而真正的「亮剑」则是推出了豆包大模型1.8和视频生成模型Seedance 1.5 Pro。

豆包大模型1.8的提升，主要在于给多模态Agent场景进行定向的优化，在上下文管理，多模态理解能力上增强，可落地到安防监控场景中，提升了模型在处理复杂任务时的规划与执行水平。

而用户可以在豆包和即梦App端体验到最新视频生成模型Seedance 1.5 Pro的能力，它已经实现音画同步，支持多人多语言对话，能对齐口型，覆盖四川话、粤语等中文方言、英文及小语种。

快手可灵率先在国内视频生成模型中取得成绩，2025年预计将取得10亿元的收入。国内科技巨头纷纷在这一领域跟进，即梦商业化负责人杜子航在AI应用分论坛说：「即梦是全球仅次于Sora的创作平台，创作者超10万名」。

而更重要的是他透露了一组商业化数据，在即梦的真实应用场景中，占比51%的是专业平面设计，占比30%的是内容素材生产，而C端社交娱乐内容占比为19%。也就是说，相比C端用户的占比，B端专业用户的付费水平已经占比八成以上。

在底层模型Seedance 1.5 Pro加持下，即梦的产品能力进一步提升，包括节奏性情感表演、多样化主体和上下文感知等，在图片处理上也可以通过涂抹框选，进而有强保持能力和精准的响应范围，输出影视质感的图片。

多模态模型能力在过去一年竞争激烈，在调用量上增速很快，已经趋同于语音模型，这成为当下科技巨头们竞争的赛点。而根据杜子航介绍，面向2026年，即梦将在漫剧等多个领域发力，包括推出多人协作的团队版。

再反观阿里，最近也是在多模态模型领域不断布局，最新推出的视觉生成模型万相2.6，集成音画同步、多镜头生成及声音驱动等能力，单次生成视频时长达到15秒，并引入了「分镜控制」与「角色扮演」功能，背后核心还是要追求专业影视制作和图像创作场景的市场空间。

从模型到应用，从硬件到产品，阿里最近在AI领域「拧油门」的状态就没有停过。

上线千问APP后，发布夸克AI眼镜，又成立千问C端事业群，而蚂蚁也在通过「灵光」应用和「蚂蚁阿福」等产品在健康等细分赛道进行拓展，密集曝光之后，「蚂蚁阿福」一度冲进苹果应用商店免费榜第三位。

如今在模型能力上都能实现「音画同步」，但阿里万相2.6和豆包Seedance 1.5 Pro差距有多大？这显然还需要时间和市场验证，火山引擎总裁谭待在提到这一功能时明确说，「Seedance 1.5 Pro实现音画同步，在行业不算首创，但同行功能做了，不代表做好了。」

放在更大的背景中看，字节和阿里在多模态模型能力上的竞逐，一方面是对B端企业客户增长市场的必然追求，而另外一方面也是补齐跟国际同行的差距。

视频生成能够实现音画同步这一功能，是谷歌在今年5月份率先在Veo3上实现的，这给整个视频模型行业带来与之看齐的方向，让AI视频走出「默片时代」，指令遵循更好、保真度更高。

而在落地场景中，谷歌云业务也给全世界的同行们做出了示范。谷歌云凭借多模态的模型能力，先后拿下了英国广告公司WPP集团、维珍邮轮等多个企业级大客户，通过Agent融入客户公司业务，推动这些大企业AI营销平台加速人工智能转型，已经在国际市场中展开更大的圈地运动。

一场生态位与话语权的变革

对于AI云服务的客户们来说，能不能用AI模型能力和智能体应用重塑生产力，带来真切的降本增效，才是选择的最大标准，因为技术只是表面的护城河，而ROI（投资回报率）才是真正的尺子。

而当Agent开始落地企业真实的场景中，安全性的保证是第一位的，而后才是效率的提升，谁能率先解决复杂任务的稳定性，谁才能通过客户的最终判断。

「第一款产品从0卖到30万台用了250天，而在火山引擎的支持下，第二代端到端语音模型的AI玩具卖到30万台，只用了25天，速度提升了10倍」，跃然创新（Haivivi）联合创始人高峰在火山引擎FORCE原动力大会上说。

跃然创新是一家AI玩具公司，今年8月发布了第二代产品CocoMate系列，这是搭载端到端语音模型的AI玩具。第二代产品的能力显著提升，主要是因为火山引擎豆包实时语音模型的支持，CocoMate能识别语气、理解情绪，支持主动接话并随时被打断，响应速度压缩到1秒以内，而且可以在噪音环境中使用。

在模型能力的提升下，AI玩具行业成为创造新需求的品类整体迎来了大发展。2026年1月，跃然创新还将发布第三代AI玩具，这是一款奥特曼AI互动对话器，用户可以与奥特曼AI角色进行对话，还支持无限距离组队对讲等功能。

而在当下AI落地真实场景Agent为王的行业共识中，阿里和字节出现了哪些新需求新变化？

阿里AI的核心关键词，是体内循环的「一统」，让C端的需求汇集到一处。

不论是成立千问事业群，还是把千问打造成一款超级App，本质都是要把阿里计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问，让其能通过Agent形式外链淘宝电商等细分场景中，让不同的需求对齐到一起。

比如高德此前有AI导航智能体，后来有直接对话的出行生活智能体「小高老师」，这都是存在于高德App内的核心交互模式，而接入了千问之后，在千问App内就可以实现基于高德的服务。

而字节的AI核心策略是体外循环的「下沉」，让B端客户的AI使用门槛更低。

在推出智能体统一交互入口AgentSphere时，火山引擎副总裁提到一个颠覆他认知的事情，那就是很多企业中的智能体不是太少，而是太多太散了，这也是造成AI低效的一个重要原因。所以无数个数字员工或是智能体，都将在AgentSphere得到统一的交互，需求不同的用户看到不同的定制看板，而不是千篇一律的对话框。

而为了降低用户使用门槛，豆包还拿出了豆包助手API，让企业通过API开箱即用。也就是说，火山引擎为了下沉，卖的不光是模型，更是封装好的成熟产品体验。

参照谷歌Gemini 3.0带给对手OpenAI的压力，不光是因为谷歌证明了AI大模型的能力上升有极大的上限，另外一方面也证明了AI落地到公司具体业务中，能把搜索、广告和Youtube等多个业务生态串联起来，真正带来业务效率的提升，给市场看到了真正AI落地可能性。

从谷歌给中国同行带来的启示看，懂用户、更好用的AI产品很重要，但更重要的是AI能力如何准确服务当下的用户群体，这是一场技术变现效率的比拼，更是一场生态位与话语权的变革。

无论是豆包通过流量入口优势挖掘B端客户，还是阿里通过B端服务能力进入C端市场，本质上都是通过各自的优势地位进行AI全产业链的布局，各自的路径已经越来越清晰，现在阶段只是版图互补，而不远的未来可能就是一场零和博弈。

标签：模型阿里