阿里AI视频模型跃居全球第二

阿里云于上周日发布了HappyHorse 1.1,这是其AI视频生成模型的重大升级。公司宣称该模型能够在核心内容创作场景下提供生产就绪的视频合成能力。目前该模型已在阿里云模型工作室上线,为企业客户和开发者提供完整的API访问权限,并伴随前两周全场40%的折扣优惠。

此次发布正值AI视频生成市场经历显著变革的时刻——阿里巴巴似乎敏锐地意识到了这一时机。OpenAI已终止Sora,事实证明该产品在经济上不可持续。字节跳动在面临好莱坞制片厂的一系列版权投诉后,无限期搁置了Seedance 2.0的国际发布。对于那些曾评估或将这些工具整合到营销、广告和内容制作工作流程的企业采购团队而言,竞争格局在短短数月内急剧收缩。

这种收缩既为阿里巴巴创造了机会,也构成了考验。HappyHorse 1.1不是研究演示或消费者玩具,而是一个API优先的产品,专为集成到企业软件栈而构建,定价考虑了大规模使用,并得到了527亿美元全球基础设施建设的支持。它能否将技术能力转化为企业采用,尤其是在应对日益加剧的中美科技紧张局势的西方市场中,将决定阿里巴巴能否将自己确立为分析人士预计到本世纪末将达到数百亿美元的生成式视频市场的重要参与者。

HappyHorse如何从匿名基准条目跃升至顶级视频模型

HappyHorse最初于四月初作为匿名提交出现在人工智能分析视频竞技场上,这是一个独立基准测试平台,真实用户在其中进行盲测、并排评估模型输出。该模型立即在文本转视频和图像转视频排行榜上占据首位。随后阿里巴巴被确认为创作者,揭示它是由公司的ATH(阿里令牌枢纽)AI创新部门构建的——该团队此前属于淘宝和天猫集团旗下的未来生活实验室,后经战略组织重组。

根据Arena.ai的数据,HappyHorse 1.0现在在所有三个视频竞技场排行榜上排名第二。该平台指出,该模型在文本转视频和图像转视频类别中均获得1444分,在文本转视频类别中领先谷歌的Veo-3.1(带音频)69分,在图像转视频类别中领先xAI的Grok-Imagine-Video 23分。在竞技场等基于Elo的排名系统中,模型根据用户在直接比较中是否偏好其输出来获得或失去分数,这意味着持续的双位数领先反映了人类评估者感知到的稳定质量差距——而非统计异常。

该模型的架构有助于解释其原因。据社区编制的技术文档,HappyHorse构建在150亿参数的统一自注意力Transformer架构上,在单一令牌序列中处理文本、图像、视频和音频令牌。与许多将单独模型拼接用于视频和音频的竞争对手不同,HappyHorse作为一个统一系统运行,在单一生成过程中处理所有模态,消除了对第三方配音或后处理音频工具的需求。对于评估总拥有成本的企业买家来说,这种架构上的简单性直接转化为更少的集成点、更少的供应商依赖和更快的生产时间。

1.1版本的改进及其对商业视频生产的重要性

1.1版本升级针对企业视频制作团队熟知的一系列痛点。阿里云将此次发布描述为”在核心内容生成场景中进行了系统性优化”,具体改进揭示了一个为商业部署而非病毒式社交媒体演示而调整的模型。

最重要的升级是多图像参考功能,阿里巴巴称之为R2V(参考转视频)。该功能允许用户上传多个角色参考图像,并在生成的视频中保持身份一致性——直接解决了AI视频制作中最困难的问题之一,即主体在帧或镜头之间容易出现外观漂移。对于制作广告活动、产品视频或系列化营销内容的品牌而言,身份一致性不是可有可无的功能;它是一项要求,曾迫使团队回归传统制作方法。

动作质量得到了显著改进,阿里巴巴描述为”加强的动作建模”,解决了先前在速度和流畅性方面的局限性。公司还对视觉纹理进行了有针对性的改进,特别指出了消除”面部油光”、”过度锐化”和”不自然纹理”等问题——这些自该技术出现以来一直困扰商业AI视频的伪影,会立即向观众表明内容是机器生成的。

另外两项升级完善了此次发布。HappyHorse 1.1改善了音视频同步,包括阿里巴巴声称的对话场景”零漂移口型同步”和语境感知的语速节奏——建立在1.0版本已具备的显著能力之上,能够生成长达15秒的1080p视频并伴有同步音频输出。该模型还改进了对长而复杂提示的指令遵循能力,这是企业用户的关键差异化点,他们需要在单次生成过程中指定精确的相机运动、照明条件和叙事节点,而不是通过数十次尝试来迭代。

Sora的崩溃与Seedance的冻结使企业买家选择更少

此次发布所面临的竞争环境对阿里巴巴异常有利,理解其原因很重要。

OpenAI的Sora网页和应用体验已于4月26日停止服务,Sora API也将于9月24日随之关闭。关闭是在该产品被证明经济上不可行之后:Sora每天运营成本约为100万美元,但总收入仅约210万美元,同时活跃用户从接近100万的峰值降至50万以下。对于已将Sora集成到生产流程中的企业团队来说,这种突然撤回强调了依赖缺乏可持续商业模式的AI产品所带来的风险——这是一个采购官员不太可能迅速忘记的警示故事。

字节跳动的Seedance 2.0被许多人视为Sora最强大的继任者,却遭遇了不同类型的障碍。Netflix、华纳兄弟、迪士尼、派拉蒙和索尼向字节跳动发出法律威胁,指控其系统性侵犯版权,原因是用户生成了包含好莱坞知识产权的病毒式剪辑。


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/alibabas-ai-video-model-rises-to-no-2-in-global-rankings-as-openais-sora-and-bytedances-seedance-fall-away

评论列表
 
 
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1587篇


关注微信

分类