Avataar发布Varya视频AI:低成本且懂印度文化

印度AI生态的新突破
与欧美及中国相比,印度在人工智能模型的产出速度上相对滞后。目前市场上仅有少数初创公司发布模型,且大多局限于大语言模型或语音模型。为推动行业发展,印度政府推出了“India AI Mission”计划,投入约12亿美元资金,为入选的初创企业提供补贴GPU算力,前提是这些公司需公开发布其模型。
在入选该计划的12家初创企业中,专注于电商视频工具开发的Avataar AI近日发布了一款名为Varya的新型视频模型。该模型的最大特色在于其对本地语境的深刻理解,能够精准识别印度的不同节日、美食及传统服饰。
技术架构:基于蒸馏模型的高效优化
获得Peak XV投资的Avataar AI并未从零开始构建Varya。相反,他们采用了阿里巴巴开源的视频生成模型Wan 2.2作为基础,并利用一种名为“蒸馏”的技术进行处理。这种技术本质上将模型的各项能力压缩,从而打造出一个更精简、更快速的版本,专门针对Avataar的特定应用场景进行了优化。
经过蒸馏处理后的Varya模型,生成视频的步数从Wan 2.2的50步缩减至仅需4步。这一改进使得视频生成速度提升了10倍,同时大幅降低了成本。
性能与速度的具体表现
在具体的硬件环境下,使用NVIDIA H200 GPU时,Varya生成一段5秒长的720p视频仅需45秒。相比之下,Wan 2.2完成同样的任务需要耗费1230秒。这种效率的飞跃为大规模应用奠定了基础。
极致性价比:专为印度市场定制
Varya最引人注目的特点莫过于其极具竞争力的价格。Avataar计划在其托管服务中按每秒视频收取0.48卢比(约合0.005美元)的费用。这一价格远低于Veo、Kling、Luma和Runway等主流模型,后者通常每秒收费超过0.10美元。这意味着Varya的价格优势达到了约20倍。
Peak XV常务董事Rajan Anandan在接受采访时表示:“印度是一个视频优先的市场。我们在印度所有大型消费互联网产品中都观察到,视频的传播力优于文本。目前的AI视频模型对于印度人口规模的应用来说过于昂贵。如果视频AI想要触达学生、教师、中小微企业、创作者、企业和公共服务部门,成本必须大幅下降。成本是印度普及AI应用的最大关键。”
深度本地化:解决文化认知偏差
图像和视频生成模型往往难以捕捉文化细微差别,容易输出刻板印象或泛化的内容。针对这一痛点,Avataar AI表示,他们利用精心筛选的数据集对Varya进行了训练,使其能够识别包括食物、服装、建筑和节日在内的文化细节,从而避免出现以往模型中常见的文化误读。
开放策略与行业展望
Varya将以开放权重模型的形式发布在印度政府的“India AI Kosh”门户网站上。该门户是印度公开AI模型和数据集的中央存储库。这意味着开发者不仅可以下载模型,还可以获取其训练数据,从而进行自主托管或修改以满足特定需求。
此外,Avataar还计划向企业客户提供该模型,并表示愿意与Higgsfield和Adobe Firefly等视频工具平台建立合作伙伴关系。目前,用户已可以通过其网站,使用文本提示词或参考图像来试用Varya。
Varya的发布反映了印度AI野心中的一种务实权衡。行业资深人士指出,印度可以通过创建应用程序和构建强大的开发者生态系统来在AI领域占据一席之地,而不是在基础模型层面进行硬性竞争。这种务实态度源于印度在算力资源匮乏和高质量数据有限方面的现实挑战,导致其模型开发速度落后于全球竞争对手。
“India AI Mission”也是印度政府为缩小这一差距而采取的广泛举措的一部分。去年,该计划选中了包括Avataar AI在内的12家初创企业开发AI模型,并为其提供成本效益高的算力支持。今年早些时候,印度IT部长Ashwini Vaishnaw表示,印度目标在2028年前吸引2000亿美元的AI基础设施投资,并在六个月内将GPU容量翻一番。
关注微信号:智享开源 ,及时了解更新信息。

关注微信

还没有任何评论,你来说两句吧!