这两天,OpenAI公司发布的文生视频大模型Sora引发全球关注。只要输入一些描述视频画面的提示词,它就能生成一段时长60秒的视频。这些视频的质量和准确性达到了令人惊艳的程度,虽然还存在视频中的动物数量突然改变、沙滩上的椅子凭空出现等瑕疵。
Sora的技术原理是什么?其应用价值有多大?解放日报·上观新闻记者采访了上海交通大学计算机科学与工程系教授赵海。
由两种模型拼接而成
赵海教授介绍,Sora属于多模态混合模型,由大语言模型和文图生成器拼接而成。“文字和图片的差别很大,而图片和视频的差别其实很小。”赵海说,在数字化世界里,图片是一种连续性介质,就像水一样。而汉语、英语等语言文字都是离散的,两个字符之间没有模态意义上的连续性。图片和文字的另一大差别是:前者是二维的,后者是一维的。因此,类似ChatGPT的纯大语言模型无法直接生成图片,通常会调用一个文图生成模型来实现图片生成功能,如OpenAI发布的Dall-E。
纯文图生成模型对提示词的理解能力很弱。比如,用户输入“世界和平”,它往往无法生成准确的图片。如果把文图生成器与大语言模型拼接在一起,后者就能把“世界和平”转化为和平鸽、橄榄枝等文图生成器看得懂的提示词,从而生成切题的作品。
Sora生成的龙年春节短视频
文图生成器经改造后,也能生成视频。在很多人看来,图片和视频有较大差别,其实视频只是多帧图片的快速、连续播放。胶片电影的帧率是每秒24帧,由于“视觉暂留”这种生理现象,人眼在看这些图片时,就产生了影片放映的观感。
因此,从文图生成器过渡到文生视频大模型,不需要很大的技术突破,研发团队主要依靠的是大算力、大模型、大样本训练数据等“先天条件”。“这些条件都是OpenAI所具备的,所以Sora的问世不能算技术革命,而是工程实践的成功。”赵海说。
用扩散模型方法训练
与Midjourney等文图生成模型的技术路线相仿,Sora采用的也是扩散模型。这是一种训练模型的方法,源于物理学中的非平衡热力学。这个学科有一个实验:当你往一杯水里滴入一滴颜料,无论滴在什么位置,只要时间足够长,颜料最终会均匀地分布在溶液中,这就是扩散模型的前向过程。如果你能获得扩散过程中颜料分子的位置、速度等数据,即可反推出颜料的滴入位置,这是扩散模型的反向过程。
从物理实验得到启发,计算机科学家在神经网络的数据训练中引入噪声(类似滴入水杯的颜料),然后通过去除噪声生成图像。经过一段时间训练,神经网络会具备在给定噪声的情况下生成新图像的能力。
经扩散模型方法训练后,Sora展示的一批文生视频案例令人惊艳。比如,输入这样一段提示词:“一位时尚女性走在充满霓虹灯和城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。”Sora根据这段话生成的60秒视频效果颇佳,头发、服装等细节都没问题,并实现了连贯的场景转换,达到以假乱真的水平。
Sora生成的时尚女子漫步东京街头短视频
将改变影视传媒等行业
Sora与Pika等同类产品相比,具有三大优势——60秒时长、单视频包含多角度镜头、遵循部分物理规律。
Sora问世前,同类产品只能根据提示词生成5秒以内的短视频。Sora的作品不仅可长达1分钟,而且有多角度镜头,这些镜头里的人和物能保持前后一致性,不会因角度变换出现问题。在对物理规律的掌握方面,Sora也有不俗表现,比如在其生成的一段SUV(运动型多用途汽车)行驶视频中,汽车影子与车身始终契合。
不过,Sora的作品也存在不少瑕疵。如输入“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”,视频中狼的数量会莫名改变,几只狼凭空出现或消失。赵海分析:“目前的文图生成器对数字不够敏感,比如生成的一些手会有6根手指,今后要加强这方面的训练。”
视频中狼的数量会莫名改变。
在这位交大教授看来,文生视频大模型将改变影视行业的游戏规则。以技术含量最高的科幻电影为例,目前拍摄一部科幻大片往往需要数年时间,大模型用于这个领域后,特效画面的制作时间有望缩短到几天,从而大幅降低科幻电影拍摄的时间成本和技术门槛。
视频摄制成本的降低,也将给传媒行业带来变革。今后,部分视频的摄制也许只要在电脑前输入一些提示词,省去了现场拍摄、后期剪辑等耗时费力的过程。
360公司创始人周鸿祎认为,Sora生成高质量视频的基础,是大模型对物理规律等世界知识的理解。这种大模型技术有望迁移到自动驾驶、具身智能等领域。目前的自动驾驶技术解决方案过于强调感知层面,而人在驾车时还需要认知层面的知识。拥有这方面知识、能模拟物理世界的大模型在这一领域有很大的应用潜力。