AI 智能体落地,北看字节,南看阿里
AI智能体正在落地,北方以字节跳动为重要阵地,南方则以阿里巴巴为引领,两大科技巨头正积极将人工智能应用于各个领域,推动智能科技的快速发展,字节跳动以其强大的技术实力和创新能力,在智能内容推荐、智能客服等方面取得了显著成果,而阿里巴巴则以其深厚的电商经验和强大的技术背景,在智能物流、智能客服及人工智能金融等领域大放异彩,两大公司的合作与创新将推动AI智能体在国内的普及与发展。
半个月前,腾讯集团汤道生带着团队到访了重庆一家短剧公司麦芽传媒;但是数日后,麦芽传媒的CTO李巍登上了字节跳动火山引擎FORCE原动力大会的舞台。
腾讯想要跟麦芽传媒在云服务、AI技术应用、数字内容联合开发与智能分发上进行合作,而麦芽传媒CTO则公开表达,明年要跟火山引擎在AI漫剧和AI真人剧、短剧AI审核、AI视频精修和播放器智能超分辨率上探索。
云厂商是短剧的「水电煤」,短剧是云厂商的「练兵场」,这是一种既是内容源,又是客户的共生关系。后知后觉的腾讯云能撬动火山引擎的客户吗?
很难替代,且不说红果短剧已经成为行业的绝对头部势力,腾讯元宝在视频模型能力上也落后同期的对手豆包和千问。
火山引擎总裁谭待在提到客户时特意说:「影视创作方面用大模型的进程比我们想象的快一些。之前想到应该很快,没想到能这么快,现在很多短剧、尤其是漫剧,还有各种AD素材,都在用。」
有提升的模型能力,搭配解锁的应用场景,最后才能给云厂商们带来源源不断的新客户。这是过去半年,豆包大模型日处理Tokens超过50万亿、增长200%的背后逻辑。
短剧正在成为云厂商们持续解锁的创新场景之一。不光是字节和腾讯,阿里千问APP也在最近上线了视频生成模型万相2.6,「AI小剧场」就是其中一个具体的玩法,具备音画同步、多镜头生成及声音驱动等多种功能。
阿里和字节是国内AI赛道最大的竞争对手,一个是AI云市场规模第一,一个是AI云市场加速度第一。
就在豆包大模型1.8发布之日,阿里千问App接入首个阿里生态场景高德,开始具备物理世界理解和行动能力,更强的Agent(智能体)能力是它们共同的进化方向,它们瞄准了更细分的用户市场需求。
凭借各自的生态优势进行全产业链的AI布局,这是目前阿里和字节在AI竞争赛道中的状态,但随着竞争深入,这终究是一场零和博弈,还是版图互补?
多模态模型能力是赛点
豆包大模型日均Tokens使用量已突破50万亿,这是火山引擎「秀肌肉」,而真正的「亮剑」则是推出了豆包大模型1.8和视频生成模型Seedance 1.5 Pro。
豆包大模型1.8的提升,主要在于给多模态Agent场景进行定向的优化,在上下文管理,多模态理解能力上增强,可落地到安防监控场景中,提升了模型在处理复杂任务时的规划与执行水平。
而用户可以在豆包和即梦App端体验到最新视频生成模型Seedance 1.5 Pro的能力,它已经实现音画同步,支持多人多语言对话,能对齐口型,覆盖四川话、粤语等中文方言、英文及小语种。
快手可灵率先在国内视频生成模型中取得成绩,2025年预计将取得10亿元的收入。国内科技巨头纷纷在这一领域跟进,即梦商业化负责人杜子航在AI应用分论坛说:「即梦是全球仅次于Sora的创作平台,创作者超10万名」。
而更重要的是他透露了一组商业化数据,在即梦的真实应用场景中,占比51%的是专业平面设计,占比30%的是内容素材生产,而C端社交娱乐内容占比为19%。也就是说,相比C端用户的占比,B端专业用户的付费水平已经占比八成以上。
在底层模型Seedance 1.5 Pro加持下,即梦的产品能力进一步提升,包括节奏性情感表演、多样化主体和上下文感知等,在图片处理上也可以通过涂抹框选,进而有强保持能力和精准的响应范围,输出影视质感的图片。
多模态模型能力在过去一年竞争激烈,在调用量上增速很快,已经趋同于语音模型,这成为当下科技巨头们竞争的赛点。而根据杜子航介绍,面向2026年,即梦将在漫剧等多个领域发力,包括推出多人协作的团队版。
再反观阿里,最近也是在多模态模型领域不断布局,最新推出的视觉生成模型万相2.6,集成音画同步、多镜头生成及声音驱动等能力,单次生成视频时长达到15秒,并引入了「分镜控制」与「角色扮演」功能,背后核心还是要追求专业影视制作和图像创作场景的市场空间。
从模型到应用,从硬件到产品,阿里最近在AI领域「拧油门」的状态就没有停过。
上线千问APP后,发布夸克AI眼镜,又成立千问C端事业群,而蚂蚁也在通过「灵光」应用和「蚂蚁阿福」等产品在健康等细分赛道进行拓展,密集曝光之后,「蚂蚁阿福」一度冲进苹果应用商店免费榜第三位。
如今在模型能力上都能实现「音画同步」,但阿里万相2.6和豆包Seedance 1.5 Pro差距有多大?这显然还需要时间和市场验证,火山引擎总裁谭待在提到这一功能时明确说,「Seedance 1.5 Pro实现音画同步,在行业不算首创,但同行功能做了,不代表做好了。」
放在更大的背景中看,字节和阿里在多模态模型能力上的竞逐,一方面是对B端企业客户增长市场的必然追求,而另外一方面也是补齐跟国际同行的差距。
视频生成能够实现音画同步这一功能,是谷歌在今年5月份率先在Veo3上实现的,这给整个视频模型行业带来与之看齐的方向,让AI视频走出「默片时代」,指令遵循更好、保真度更高。
而在落地场景中,谷歌云业务也给全世界的同行们做出了示范。谷歌云凭借多模态的模型能力,先后拿下了英国广告公司WPP集团、维珍邮轮等多个企业级大客户,通过Agent融入客户公司业务,推动这些大企业AI营销平台加速人工智能转型,已经在国际市场中展开更大的圈地运动。
一场生态位与话语权的变革
对于AI云服务的客户们来说,能不能用AI模型能力和智能体应用重塑生产力,带来真切的降本增效,才是选择的最大标准,因为技术只是表面的护城河,而ROI(投资回报率)才是真正的尺子。
而当Agent开始落地企业真实的场景中,安全性的保证是第一位的,而后才是效率的提升,谁能率先解决复杂任务的稳定性,谁才能通过客户的最终判断。
「第一款产品从0卖到30万台用了250天,而在火山引擎的支持下,第二代端到端语音模型的AI玩具卖到30万台,只用了25天,速度提升了10倍」,跃然创新(Haivivi)联合创始人高峰在火山引擎FORCE原动力大会上说。
跃然创新是一家AI玩具公司,今年8月发布了第二代产品CocoMate系列,这是搭载端到端语音模型的AI玩具。第二代产品的能力显著提升,主要是因为火山引擎豆包实时语音模型的支持,CocoMate能识别语气、理解情绪,支持主动接话并随时被打断,响应速度压缩到1秒以内,而且可以在噪音环境中使用。
在模型能力的提升下,AI玩具行业成为创造新需求的品类整体迎来了大发展。2026年1月,跃然创新还将发布第三代AI玩具,这是一款奥特曼AI互动对话器,用户可以与奥特曼AI角色进行对话,还支持无限距离组队对讲等功能。
而在当下AI落地真实场景Agent为王的行业共识中,阿里和字节出现了哪些新需求新变化?
阿里AI的核心关键词,是体内循环的「一统」,让C端的需求汇集到一处。
不论是成立千问事业群,还是把千问打造成一款超级App,本质都是要把阿里计划将地图、外卖、订票、办公、学习、购物、健康等各类生活场景接入千问,让其能通过Agent形式外链淘宝电商等细分场景中,让不同的需求对齐到一起。
比如高德此前有AI导航智能体,后来有直接对话的出行生活智能体「小高老师」,这都是存在于高德App内的核心交互模式,而接入了千问之后,在千问App内就可以实现基于高德的服务。
而字节的AI核心策略是体外循环的「下沉」,让B端客户的AI使用门槛更低。
在推出智能体统一交互入口AgentSphere时,火山引擎副总裁提到一个颠覆他认知的事情,那就是很多企业中的智能体不是太少,而是太多太散了,这也是造成AI低效的一个重要原因。所以无数个数字员工或是智能体,都将在AgentSphere得到统一的交互,需求不同的用户看到不同的定制看板,而不是千篇一律的对话框。
而为了降低用户使用门槛,豆包还拿出了豆包助手API,让企业通过API开箱即用。也就是说,火山引擎为了下沉,卖的不光是模型,更是封装好的成熟产品体验。
参照谷歌Gemini 3.0带给对手OpenAI的压力,不光是因为谷歌证明了AI大模型的能力上升有极大的上限,另外一方面也证明了AI落地到公司具体业务中,能把搜索、广告和Youtube等多个业务生态串联起来,真正带来业务效率的提升,给市场看到了真正AI落地可能性。
从谷歌给中国同行带来的启示看,懂用户、更好用的AI产品很重要,但更重要的是AI能力如何准确服务当下的用户群体,这是一场技术变现效率的比拼,更是一场生态位与话语权的变革。
无论是豆包通过流量入口优势挖掘B端客户,还是阿里通过B端服务能力进入C端市场,本质上都是通过各自的优势地位进行AI全产业链的布局,各自的路径已经越来越清晰,现在阶段只是版图互补,而不远的未来可能就是一场零和博弈。
作者:访客本文地址:https://gaaao.com/gaaao/16218.html发布于 2025-12-22 16:00:03
文章转载或复制请以超链接形式并注明出处深链财经



还没有评论,来说两句吧...