视频生成模型Sora是“阿拉丁神灯”还是“潘多拉魔盒”?

发布时间:2024-11-02 09:27:18 来源: sp20241102

  视频生成模型Sora横空出世,让影视、广告业乃至教育界人士顿生危机感——

  “阿拉丁神灯”?“潘多拉魔盒”?

  “现实不存在了?”用“你方唱罢我登场”来形容春节假期最后两天大洋彼岸的“疯狂”,再贴切不过了。北京时间2月16日,谷歌的Gemini Pro 1.5还没出几个小时的风头,天一亮,全世界的聚光灯就集中在了OpenAI的Sora身上。

  Sora,新型视频生成模型,它可以根据简短的文字提示(prompt),将其转化为长达一分钟的高清视频,镜头感堪比电影。

  未来,各种Sora视频或将现身并“占领”视频社交平台,其对现实的影响与改变,可谓巨大。

  AI视频要“变天”了

  Sora“逆天”在哪儿?它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且能生成长达1分钟的超长视频,还是一镜到底那种。

  从发布的视频来看,60秒的视频中,视频主体与背景保持了高度的流畅性与稳定性,在一个视频里实现多角度镜头,分镜切换符合逻辑且流畅。此外,Sora对于光影反射、运动方式、镜头移动等细节处理非常到位。

  “这座城市洁净无瑕,到处可见先进的未来式有轨电车、绚丽的喷泉、巨型的全息投影以及四处巡逻的机器人。”……OpenAI首席执行官山姆·奥特曼也亲自“下场”,在社交媒体上根据网友给出的prompt输出视频。

  Sora的视频效果,几乎和人工拍摄不相上下,由此带来的强大冲击让无数人感叹:“现实,不存在了。”OpenAI是怎么做到的?根据官网介绍,“通过一次性为模型提供多帧的预测,我们解决了一个具有挑战性的问题。”数小时后,Sora的技术报告发布,尽管依旧“很OpenAI”——不包括模型和实现细节。技术报告中,“里程碑”是关键词。Sora还能将静态图像转化成视频,以该图像为背景,在视频中添加一些动态的元素,使图像变得更加生动。

  据悉,OpenAI目前没有向公众发布Sora的计划,但将首次开始与第三方安全测试人员共享该模型。

  对相关行业具颠覆性

  纽约大学助理教授谢赛宁直言:“Sora将改写整个视频生成领域。”谢赛宁分析,Sora应该是建立在DiT这个扩散Transformer之上;在视频压缩网络上可能采用VAE架构,区别就是经过原始视频数据训练。他推算Sora可能有大约30亿个参数,并表示:“Sora或许并不需要人们想象中的那么多GPU来训练,如果真是如此,Sora的后期迭代将会非常快。”

  英伟达人工智能研究院首席研究科学家Jim Fan认为,Sora是一个数据驱动的物理引擎,称这是视频生成领域的GPT-3时刻,“回到2020年,GPT-3不是一个很完美的模型,但是它有力证明了上下文学习的重要性,所以不要纠结于GPT-3的缺陷,多想想后面的GPT-4”。

  360创始人周鸿祎也发布微博,提到自己对Sora的看法。在他看来,Sora只是小试牛刀,它展现的不仅仅是一个视频制作能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。周鸿祎写道:“这次OpenAI利用它的大语言模型优势,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。”他认为,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力,“今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败TikTok,更可能成为TikTok的创作工具”。

  周鸿祎也直言:“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube和TikTok上的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,这就离AGI真的不远了,不是10年、20年的问题,可能一两年很快就可以实现。”

  人才培养模式需创新

  全国政协委员、上海科技馆馆长倪闽景在《Sora只是开始,教育真正的挑战来了》一文中指出,Sora的出现,首先会让影视行业、广告行业的专业人士瑟瑟发抖,但是需要瑟瑟发抖的显然是教育行业。

  “无论是ChatGPT还是Sora,都仅仅是开始,以强大算力和算法支持的数字大脑,将在学习能力、学习范围和学习深度上远超人类,人类只有依靠人工智能一起协同学习,才是教育的出路。”倪闽景认为,人类学习将进入超级学习阶段,教育的逻辑将改变:首先,重新定义知识,从知识到知与识;其次,重新定义学习,从工具到本能需要;最后,重新定义创造,从创造东西到创造体验。

  倪闽景写道:“Sora在英文中有小鸟在空中咏唱的意思,这个浅浅的人工智能咏唱,如果能够让所有教育者听懂,那么我们是否会对各种无谓的内卷释然并放下呢?”

  21世纪教育研究院院长熊丙奇认为,比感慨AI淘汰传统职业更重要的是,如何直面这一挑战,应对这一新的时代发展趋势。其中,最为关键的是,必须改革教育、创新人才培养模式。

  他一针见血地指出,近年来,我国高校新增不少人工智能、大数据管理与应用专业;各地亦在大力推进教学数字化变革。不过,这些教育变革,存在两大值得关注的倾向:知识化倾向、应试化倾向。

  熊丙奇表示:“如果不推进破除基础教育存在的功利化、短视化问题,AI+教育等技术变革,也难以带来人才培养模式的创新,更遑论提高人才自主培养质量,造就拔尖创新人才。”

  他感慨,过去20多年来,我国教育界一直在求解钱学森世纪之问——“为什么我们的学校总是培养不出杰出人才?”在Sora刷屏、AI又取得突破后,如何求解钱学森世纪之问也更显紧迫。

  “对此,要形成基本共识,那就是,只靠技术手段难以推进人才培养模式改革,必须改革教育管理与评价体系。”他表示。

  警惕“潘多拉魔盒”

  在Sora横空出世前,OpenAI首席执行官山姆·奥特曼就曾表示,人工智能有望在推理能力和可靠性、多模态、可定制化和个性化三个领域大幅提升,并认为,至少在未来5到10年内,AI大模型技术将处于一个非常陡峭的成长曲线上。

  值得关注的是,就在Sora发布的同日,谷歌也发布其大模型矩阵的最新力作——Gemini 1.5,其将稳定处理上下文的上限扩大至100万Tokens(词元),这代表它能一次处理大量的信息——包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。

  新事物,显然无法做到“完美”。OpenAI明确指出,Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。这一模型还可能混淆提示的空间细节,并且可能难以精确描述随着时间推移发生的事件——而这些缺陷或将使Sora生成一些不合逻辑的东西。

  据了解,OpenAI内部仍在开展模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容,至于色情暴力等,会在文本输入时就被拒绝。

  近两日,也有一些人工智能业内人士向记者表示,从技术角度来看,Sora是非常重大的飞跃,但“硬币有两面”,它存在潜在的滥用可能,“在AI视频构建的世界中,‘眼见为实’行不通了,人们眼睛看到的东西,或许无法作为判断的依据”。

  是“阿拉丁神灯”还是“潘多拉魔盒”,显然现在下结论为时过早。该业内人士同时表示,对于新技术的到来,需要社会足够的包容性;同时,在大规模推向社会前,务必“系好安全带”,做好应对风险的准备。

  本报记者 郜阳

  来源:新民晚报 【编辑:曹子健】

选择用户
全部人员 全选 撤消
谢志刚
李岩
李海涛
谢志强
李亚琴
潘潇潇
杨亚男
高荣新
郑文静
金琳
张银波
张欣
陈曦
刘涛
王长青
高广柱
孙圆
行政专员
付雪枫
张雪莲
张璐
刘相群
张明璇
李静
孙静
王晨
赵夏
马洪亮
张兰
黄莉
李潍伊
常恩宁
侯昭宇
韩岩峰
冯亚红
林洋
陈静
刘婧
魏保国
唐彦秀
张楠
刘瑞萍
付严明
荣伶
马建国
邓爱青
系统管理员