进击中的Sora
2月16日,OpenAI发布了*文生视频模型Sora。用户可以通过输入自然语言提示词,生成长达1分钟的视频。Sora也因文生视频的强大功能而被称为“史诗级大模型”。
然而,出于公司发展战略、商业化等的多方考量,OpenAI选择了闭源Sora,甚至遮蔽了模型训练的技术性细节。当OpenAI变成了ClosedAI,一众大模型技术和创业团队开启了复原Sora的计划。
“世界模拟器”的激励之下,佼佼者众。继2024年3月18日的OpenSora1.0之后,ColossalAI再次推出了开源Sora中的尖子生——OpenSora1.1,在开源模型的艰难复现之路上迈了一大步。
OpenSora1.1是开源视频生成模型OpenSora1.0的第二代,该模型支持文本到视频、图像到视频、视频到视频等多模态的功能实现,且能够进行自主视频拼接的同时保证视频内容的3D一致性。此外,OpenSora1.1的动态分辨率也同样出彩,无需预处理便可以直接处理任意分辨率的视频。
与初代相比,该版本在功能、训练效率和整体灵活性方面均有了显著提升。最显著的改进之一是能够生成长达21秒的视频,与Open-Sora1.0的2秒限制相比提升了十倍多,时间范围的大幅扩张为更广泛的创意短视频的落地打开了方便之门。
此外,新版本还大幅增加了模型大小和数据集。与Open-Sora1.0版本的40万个训练视频相比,Open-Sora1.1的训练数据集直接提升了25倍,此外,该模型本身还拥有7亿个参数,再搭配训练过程中对原有的STDiT架构进行了关键性改进,包括将时序注意力中的正弦波位置编码替换为更高效的旋转位置编码,以及QK归一化技术等的引入,保障了OpenSora1.1半精度训练的稳定性。
OpenSora1.1对CausalVideoVAE架构进行了优化,采用高效多分辨率训练的Bucket系统,该系统将视频根据分辨率、帧数和宽高比分组到Bucket中,确保具有相似属性的视频能够在同一批次内进行训练。这不仅极大地提升了在有限GPU资源上的处理效率,还通过keep_prob和batch_size等功能的引入,有效控制了计算成本,并在训练期间实现了GPU负载的平衡。
模型架构和训练之外,Open-Sora1.1在很大程度上得益于精细的数据预处理流程。利用场景检测算法首先对原始视频片段进行采样切割,从美学、光流和文本存在等方面对切割后的原始视频进行评分,在基于视觉吸引力、运动模式、语义一致性等指标对原始视频进行综合评估后,为入围的片段生成字幕,通过视频内容的文本描述进一步丰富模型的训练数据。在此基础上进行新一轮的字幕和匹配分数计算,筛选出字幕和视觉效果之间相关性强的训练视频,最终根据匹配分数过滤视频片段,舍弃字幕与视频匹配度较弱的片段。
诸多buff加持下的Open-Sora1.1成为视频处理与生成的“斜杠青年”,能够同时处理分辨率、帧长度和宽高比等各种视频属性。
但复现终究不是取代。在高仿真度还原Sora大量功能的同时,Open-Sora1.1也存在处理复杂内容或大量token时场景还原度不高、视频可能会出现噪声、缺乏流畅度和时间一致性等问题。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
推荐阅读
-
或投入约60亿,固态电池商业化又近了?作者:泰罗,编辑:小市妹据财联社报道,中国或将投入约60亿元用于全固态电池研发,包括宁德时代、比亚迪、一汽、上汽、卫蓝新能源和吉利共六家企业或获得政府基础研发支...2024-05-31 15:55:00
-
物美宣布全面推进“天天低价”,并发布“AI智能导购”服务在昨日举行的中国流动产业变革与创新暨物美三十年周年发布会上,物美宣布全面深入推进“天天低价”,并发布了创新的“AI智能导购”服务。据了解,物美“天天低价”策略的...2024-05-31 15:54:00
-
“跨境电商+海外仓”助力企业出海赋能产业发展呈现新业态在5月30日举行的商务部例行新闻发布会上,新闻发言人透露,将推动尽快出台政策举措,推进海外仓建设。商务部新闻发言人何亚东介绍,将推动尽快出台《关于拓展跨境电商出...2024-05-31 15:53:00
-
国潮经济下什么是运动品牌的核心竞争力?随着人们健康意识的提高、运动爱好人群的扩大以及国潮元素的兴起,运动国货品牌纷纷开始崛起。艾媒咨询发布的《2024-2025年中国运动鞋服市场运行状况及消费需求数...2024-05-31 15:52:00
-
港元拆息个别发展隔夜息结束三连跌智通财经APP获悉,港元拆息在月结日个别发展,其中,隔夜息结束三连跌,反弹至4.47226%,创近一个月新高。与楼按相关的一个月拆息三连跌,报4.47411%,...2024-05-31 15:51:00