视频ChatGPT时代”来了？Meta挑战霸主Sora

作者：小编2025年01月12日焦点浏览

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台★◆◆■◆◆。申请澎湃号请用电脑访问。

　　此后，字节跳动的Animatediff模型出现，凭借免费、本地使用且可操作性强的优点，迅速获得了技术爱好者们的青睐，成为视频转视频的主流工具■◆。与此同时★◆★◆，市场上也涌现出了一些高质量的图生视频工具■■◆■◆◆，如Runway Gen2因其出色的画质和高分辨率，一度受到短剧领域的青睐。

　　李博杰也指出■★◆◆★，在技术层面■■，文生视频面临的关键挑战之一是风格一致性的问题。例如，在生成一个10秒的视频时，人物形象是否保持一致，是否会出现前后视频中人物外貌不符的情况◆★■。此外，视频中的物理规律是否符合常识也是一个难点★◆◆。

　　李博杰指出，如果普通用户生成一分钟视频要花费100美元■◆★◆◆，那么如此高的成本对于消费级市场来说显然难以接受。因此，Sora尚未能大规模推广。相比之下，一些国内公司选择了较小规模的模型，虽然生成效果不如Sora，但在当前算力有限的情况下更加实用，能让用户立即上手◆■■◆■。

　　近日，Meta发布Movie Gen，称其为“最先进的媒体基础模型”。据悉，Movie Gen可生成1080P、16秒、每秒16帧的高清长视频■■■◆◆，其不但可以通过文本输入生成视频■◆◆■★，还可以通过文本对现有视频进行编辑修改，据称逼真程度超越Sora，Movie Gen预计明年正式向公众开放。

　　如GPT-4o mini■★◆■，通过模型蒸馏技术将成本降低了30倍■◆，“理论上Sora也可以采取这种方法，将模型能力稍微削弱◆■★◆◆★，但成本却能大幅下降。◆★”李博杰同时指出，这一过程需要大量资源投入，而资源恰恰是当前OpenAI内部面临的一个重要问题◆★◆。

　　“Sora的关键作用在于它为行业指明了方向。如果它能够降低成本并进入市场，其他公司将会纷纷跟进，投入资源进行开发。★★■★◆◆”李博杰表示，尽管目前Sora的效果未达最佳■◆，但如果它开源视频生成模型★★★，将带来一场颠覆性的行业变革。

　　近日，《The Information》报道称◆■◆◆★■，OpenAI因不满微软无法快速提供足够的服务器■◆，开始与Oracle洽谈★★■，以建立全球最强的AI数据中心。OpenAI首席财务官Sarah Friar此前表示★■◆◆◆，由于微软提供的算力不够★■■◆■★，OpenAI不得不寻找其他数据中心合作◆★★★。

　　Logenic AI联合创始人李博杰向《IT时报》记者表示，Sora未能如期发布的主要原因可能与其所需的算力资源密切相关。Sora模型本身需要占用大量计算资源，生成一分钟视频的时间高达约半小时，且并非单台设备完成■■■■★，而是需要多台并行运行◆■★★■■，这

　　尽管如此，李博杰认为★★■■◆，Sora未来能够在市场上推出，依然具备强大的竞争优势，“OpenAI在数据和算力上的显著优势让其在市场中独树一帜◆■◆■◆★，其他公司既没有那么多的GPU资源■◆，也缺乏同等规模的高质量数据”。

　　6月13日，美图发布了基于大模型的短片创作平台MOKI，创作者只需经过简单设定，即可生成动画短片★◆◆■■、网文短剧、故事绘本和MV等多种内容★◆■■，极大降低了创作门槛◆★。

　　★★■■■■“最开始要将视频的每一帧都用图像生成模型Stable-Diffusion进行图生图处理，然后再连成视频。”俞国汉回忆道★◆■■。这种方法虽然能够生成具有创意效果的视频■◆■，但每一帧图生图之间存在差别，导致最终的视频效果总是闪烁不定，严重影响了观看体验■■◆◆。

　　OpenAI部分团队专注于商业化，需要快速推向市场◆◆★，因此占用了大量GPU资源。尤其是GPT-4的免费开放，更加剧了资源消耗。此外◆★，OpenAI还在不断训练新模型，如o1推理模型、Sora的最新版本◆■■、GPT-4.5以及即将推出的GPT-5，进一步加重了计算资源的负担◆■★◆。

　　事实上■■，当前市面上缺乏先进开源的视频生成模型。大多数头部公司如Meta和Sora都选择了闭源。虽然Meta近期发布了一份92页的技术报告，详细阐述了技术细节，开放程度已超出其他公司，但模型本身仍未开源。若未来这些模型能实现开源★■◆，将极大推动视频生成行业的发展。

　　6月21日，快手推出旗下的◆■★■“可灵◆◆■◆■★”图生视频功能◆★■★，7月24日◆★■，基础模型升级，显著提升了画面质量与运动表现◆★★■■◆。

　　大模型领域的初创公司同样不甘落后■★。爱诗科技推出了AI视频生成产品PixVerse，生数科技4月发布了视频生成模型Vidu，智谱AI7月26日上线清影（Ying），MiniMax则于9月2日推出abab-video-1★■★，其高压缩率■★、优良的文本响应能力以及多样化风格，能够生成媲美电影质感的高分辨率、高帧率视频。

　　据德邦证券统计◆■◆◆★，自Sora首次亮相以来，全球已有十多家公司发布或更新了视频生成模型◆★■■。

　　直到2024年6月■◆◆★，快手“可灵”正式发布★■★◆，让俞国汉在内的创作者们直呼“原来真的有那么好的文生视频工具”■■◆★◆。可灵不仅提升了文生视频的表现■★★◆■◆，还证明了高质量文生视频的可能性。此后◆◆◆★，市场上涌现出了多种文生视频工具，如Vidu■★■◆、Runway、Luma◆■◆★、海螺AI等，每款工具都各有特色。

　　俞国汉指出，目前使用AI视频制作对于个人用户而言成本仍然较高★■，但对于企业来说，这种成本是可以接受的，商用AI视频制作中，画面一致性、分辨率和语义理解能力是决定视频质量的关键因素。

　　《IT时报》记者注意到★◆★■，如今几乎所有新推出的文生视频产品都会与年初亮相的Sora对比，将之视为最强大的竞争者★■■★★。不过，Sora一鸣惊人后却迟迟未上线■◆，被外界调侃为“期货”，那么■■“视频ChatGPT时代■◆”究竟何时来临？

　　尽管文生视频技术为创意工作开辟了新的空间，但其现有的局限性使得它在商业应用中的价值远不及图生视频。目前来看■★◆，文生视频大多时候更像是爱好者的★★★■“玩具”，难以满足商业需求。因为在短剧制作中★■★◆◆◆，需要确保人物形象和其他元素的一致性，而文生视频往往只能生成几秒钟的内容，且下一秒的内容可能会发生变化，这显然无法满足专业制作的要求。

　　模型蒸馏是指通过使用大型、强大的模型(如GPT-4o或o1-preview)的输出，来微调更小、更具成本效益的模型(如GPT-4o mini)■◆◆★★，以在特定任务上接近高级模型的性能，但成本大幅度降低■★■★★。

　　今年3月底◆■■，字节跳动旗下的剪映团队推出AI创作平台■◆■“即梦AI◆◆◆■★”并开放内测★★★。8月6日，移动版应用正式上线苹果商店，具备文生图★◆、文生视频和图生视频等功能。

　　对于广大使用者而言，Sora从★★“理想”到◆◆■★■◆“现实”的进展缓慢无疑令人失望与焦虑。Sora首次亮相时■■★★，业内的讨论还聚焦于中美AI技术的差距。如今■■◆，短短半年后，国内AI创作领域已然■◆◆“百花齐放”★★。相比之下★◆■★◆，Meta的入局已经显得慢了半拍，中国企业迫不及待地开始布局视频生成技术★★★■◆◆。

　　另一方面，尽管OpenAI拥有比大多数公司更多的GPU资源，但团队规模庞大，内部的资源争夺和职场斗争不断★◆■◆◆■。OpenAI内部约有3000名员工，不少团队需要抢占资源，高管的频繁离职也与此有关。

　　2024年初Sora的面世给视频创作领域带来一波新浪潮。“那时候大家对Sora既充满期待又感到不安，觉得之前花时间研究的视频技术都变得不再重要了。”俞国汉回忆道★◆■■★★。

　　当地时间10月4日，OpenAI的文生视频大模型Sora团队研发负责人Tim Brooks宣布离职，加入谷歌 DeepMind。在此之前，9月26日，OpenAI高层也经历了重大变动，多位高管相继离职，创始团队成员仅剩三人■★◆■◆★。

　　俞国汉向《IT时报》记者详细介绍了自己体验这些文生视频工具的直观感受，比如海螺AI以其优秀的动画、镜头运用和人物情感表达而著称；Vidu在语义理解、特效2D动画、一致性等表现出色★◆★■◆；Runway则以其较高的分辨率◆◆、优秀的画面质感成为广告行业的理想选择；而可灵则因其平衡的性能而被视为多面手。

　　作为自2023年2月起就开始体验各种视频创作工具的资深用户，俞国汉见证了AI视频创作领域快速变化。

　　此外，在美国，生成式AI引起的版权争议正愈演愈烈◆★◆■★◆。此前，超过4700名艺术家发起集体诉讼，指控Stability AI、Midjourney和其他AI相关公司非法使用版权作品用于训练AI。相比文本生成，图片、视频和语音的版权风险更大，视频生成面临更多的版权问题◆★■。

声明：本站内容均来自互联网，仅供演示用，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。
本文地址：http://twenty8.xyz/html/inhqvtrntq/306.html

相关文章