对话式视频制作:Gemini Omni Flash API赋能企业

对话式视频制作:Gemini Omni Flash API赋能企业

企业视频制作的困境与革新

对于大多数企业而言,制作一段90秒的培训视频或产品介绍从未是一项简单任务。这需要精心策划的方案,要么组建内部摄制团队,要么外包给外部供应商,经历拍摄、剪辑和修改等环节。仅仅因为法律审核需要修改一行字幕,整个流程就可能重新开始。高昂的成本和漫长的制作周期,使得许多内部视频最终无法面世。

Gemini Omni Flash:重塑视频创作范式

Google正是瞄准这一痛点,推出Gemini Omni Flash模型。作为其全新”Omni”家族的首个成员,该模型在2026年I/O大会上向消费者展示后,现已通过API向开发者和企业客户开放。Google将这一家族的目标定位为”从任意输入创造一切”,视频制作是起点。但其核心创新不仅在于更强大的文本转视频提示能力,更在于能够通过对话完成剪辑。

当该模型于5月首次发布时,VentureBeat的企业分析曾指出一个局限:缺乏程序化接口,Omni当时仅面向消费者和专业用户,而非生产级工具。此次API发布彻底改变了这一现状,将对话式编辑功能直接呈现在组织中制作最多的视频的营销和培训团队面前。

五大工具链整合为单一对话

在此之前,许多团队一直在艰难地组装AI视频,将大型语言模型用于脚本生成,文本转图像模型,图像转视频模型,单独的口型同步工具和语音生成器拼接起来,每个工具都有各自的合同、计费和数据路径。

Omni的企业级论点是统一性:单一模型能够接收文本、图像和视频,并返回带有同步音频的完整视频片段。

这种简化因素是决策者首先应权衡的重点。将多个点工具整合为一个模型,意味着更少的供应商和单一监控输出、执行数据管理规则的位置。对于那些因整合工具工作量大而避免使用生成式视频的组织而言,这一转变重新平衡了价值方程。

通过对话式编辑,每条指令都基于前一条,因此营销人员可以重新照亮产品镜头、调整构图或更换服装,无需从头重新生成而丢失已有效的部分。这相当于重新拍摄与发送备注之间的区别。

多模态参考与品牌资产物理引擎

Omni接受的远不止文本提示。在描述您想要的文字之外,您还可以提供多张参考图像和现有视频片段,模型会将这些特定细节融入结果中。给它一张特定物体的照片,要求将该物体放入场景中,它会重现真实物体的颜色和大致形状,而不是发明一个普通的替代品。虽然匹配可能不是像素完美的,但足够接近以可识别。这种参考驱动的控制是功能具有商业吸引力的关键:产品照片、品牌标志或特定位置可以作为原料直接插入,而非通过提示词描述并寄予希望。

Google强调的四项优势中有两项直接针对企业工作。首先是世界模型,即系统对物理场景行为的理解。向现有镜头添加细雨和水坑,它会渲染出人物和物体在潮湿路面上的倒影,这种物理一致性将真实镜头与明显的人工智能视频区分开来。

其次是文本和标志插入功能。指向充满标识的场景,可以让它将标志重写为另一种语言,或您选择的品牌,甚至插入公司标志。结果并非完美:测试中,复杂场景中的标志跟踪并不总是完美,一些文本在帧间会恢复为原始语言。对于需要屏幕标签的培训视频或需要将标志放置在场景中的广告,这一功能值得关注,同时也是提醒在发布前输出仍需人工审核。

交互API与局限性

在技术层面,这运行在Google的新交互API上,这是一个为多轮任务而非开放式聊天构建的有状态接口。每一轮都将先前的视频及其参考信息向前推进,这正是使编辑能够连贯积累的原因。开发者可以链式生成:可以生成一个片段,将猫变成小美洲狮,将视频重新风格化为8位复古风格,再转为水彩效果,并存储每个版本以便后续分支。

限制是真实的,值得在预算中考虑。根据发布的模型卡片,片段目前上限为10秒。要制作更长的内容,需要生成片段后再编辑拼接。上传的素材也可编辑,只要不超过10秒且用户拥有其版权。Google自己的模型卡片坦诚指出,在编辑中保持一致性以及渲染准确文本仍是开放问题。

护栏、水印与Google的界限

对于首席信息安全官而言,演示不如伴随模型发布的溯源工作重要。每个Omni片段都带有Google的SynthID水印,Google正在将其C2PA内容凭证扩展到其生成式工具,并推出了AI内容检测API,能够标记Google及其他厂商生成的AI媒体。

Google还刻意划定了一条界限。模型不会接受人物静态照片和音频片段,并将它们口型同步为语音,这是明确限制深度伪造的措施。然而,它可以将某人说话的录音翻译成另一种语言,这对于本地化全球培训内容很有用。对于受监管的企业,这些限制和内置溯源功能是特性而非障碍。

价格与规格:720p、低成本但暂居榜首

定价随API一同发布,且极具竞争力。Omni Flash每秒生成的720p视频成本为0.10美元,这意味着一个十秒片段约为一美元。这与相同分辨率的Veo 3.1 Fast价格相当,是Veo 3.1 Lite的两倍,比标准Veo 3.1低四分之三。

每秒价格(美元) Gemini Omni Flash Veo 3.1 Lite Veo 3.1 Fast Veo 3.1
720p $0.10 $0.05 $0.10 $0.40
1080p n/a $0.08 $0.12 $0.40
4K n/a n/a $0.30 $0.60

然而,表格也暴露了一个限制。Omni Flash仅生成720p视频,没有1080p或4K选项,而Veo级别可高达4K。对于内部培训和大多数社交媒体视频,720p足够。对于旨在大屏幕展示的高端品牌内容,这是一个真正的上限,也是Veo 3.1仍有价值的原因。

片段原生运行720p分辨率,时长3至10秒,支持横向(16:9)或纵向(9:16)格式。作为参考输入,模型最多接受七张图像和三段不超过三秒的视频片段。目前尚不接受音频输入,但会为其生成的视频创建音频。输出为标准MP4格式,每个片段都内置SynthID水印和C2PA凭证。

关于质量,早期信号表明…


关注微信号:智享开源 ,及时了解更新信息。

原文链接:https://venturebeat.com/technology/googles-gemini-omni-flash-hits-the-api-turning-enterprise-video-production-into-a-conversation

评论列表
发表评论
😀 😂 😃 😄 😅 😆 😉 😊 😋 😎 😍 😘 🥰 😜 😝 🤗 🤔 😭 😤 👍

为你推荐
Ta的个人站点

Mark Do发布文章1709篇

如我距离死亡还有45年,我还活着,该怎么度过现在。


公众号:智享开源

分类