可用文本生成视频 虚拟与现实已分不清?Sora将带来什么

发布时间:2024-11-14 15:30:53 来源: sp20241114

  OpenAI首个视频生成模型发布

  可用文本生成视频 虚拟与现实已分不清?Sora将带来什么

  在2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。据了解,通过文本指令,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。

  这意味着,继文本、图像之后,OpenAI将其先进的AI技术拓展到了视频领域。OpenAI亦表示,Sora是能够理解和模拟现实世界的模型的基础,这一能力将是实现AGI(通用人工智能)的重要里程碑。

  对于OpenAI视频生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革命来临”。

  2月16日,业内分析人士对记者表示,Sora无疑是人工智能领域的一次重大突破,该技术不仅展示了AI在理解和创造复杂视觉内容方面的先进能力,而且对内容创作、娱乐和影视制作行业带来了前所未有的挑战和机遇。

  Sora视频的长度和质量

  超出了迄今为止所见的水平

  “一名时尚女子走在充满霓虹灯和广告牌的标志性东京街头,她穿着黑色皮夹克、红长裙和黑靴子,拎着黑色手袋,戴着太阳镜,涂着红色口红,走路自信又随意。街道潮湿且反光,在灯光映射下形成镜面效果,行人走来走去。”这段60秒的视频,并非真实拍摄,而是OpenAI最新的“文生视频”模型Sora,这一段文字描述就是段Prompt(提示词)。

  当地时间2月15日,人工智能(AI)巨头OpenAI宣布,正在研发“文生视频”模型Sora,可以创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。OpenAI称,目前红队成员(red teamers)可以使用Sora来评估关键的危害或风险,还向一些视觉艺术家、设计师和电影制作人提供访问权限,以获取有关如何改进该模型以对创意专业人士最有帮助的反馈。

  Sora视频一出,立刻震惊业界。尽管这不是首个AI视频,其他企业也有类似文本生成视频的AI模型,谷歌正在测试名为Lumiere的模型,Meta则有名为Emu的模型,还有人工智能初创企业Runway也在开发相应产品来帮助制作视频,但外媒指出,人工智能专家和分析师表示,Sora视频的长度和质量超出了迄今为止所见的水平。

  美国伊利诺伊大学香槟分校信息科学教授Ted Underwood指出,没想到在两三年内还会有如此持续连贯水平的视频生成技术,OpenAI的视频可能展现了该模型的最佳性能。

  多名AI从业者称,从Sora公布的预览视频来看,简直太“疯狂”。在国外Reditt社区,有个网友提问,今天OpenAI公布的Sora模型是否会成为自动化对于经济影响的里程碑?下面有将近100条回复,有网友称,起初ChatGPT的发布让用户看到了一切皆有可能,而现在人工智能正在不断进步发展,让用户看到了强大的技术能力。

  有海外网友评论称,Sora的出现是一项改变世界的产品,但同时也指出,Sora生成的视频或许让人工智能专家也难以分辨真假,这或许是个棘手的问题。

  内容创作领域开启新纪元

  确保内容真实透明成重要问题

  2021年初和2022年末,OpenAI分别推出了图像生成系统DALL·E和聊天机器人ChatGPT。这也使得AI逐渐成为各行各业辅助工作的工具,也正逐渐改变人们对未来工作的看法。据介绍,Sora是基于过去对DALL·E和GPT的研究基础构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生成高描述性的标注,因此模型能更好的遵循文本指令。

  Sora能够生成具有多个角色、特定类型的运动以及主题和背景的准确细节的复杂场景。不仅了解用户在提示中要求的内容,还了解这些东西在物理世界中的存在方式。同时,该模型对语言有深刻的理解,使其能够准确地解释提示并生成表达生动情感的引人注目的角色。

  对于Sora的面世,工信部信息通信经济专家委员会委员、数字经济专家刘兴亮称,这标志着AI技术在内容创作领域的一个新纪元。“技术创新的这一巨大飞跃,预示着AI在未来人类生活的各个方面都将发挥更加重要的作用。”刘兴亮表示。

  而Sora以文字为核心的提示,将能够形成更加符合人类观念的连续视频,该模型的出现无疑将会对人们现有工作方式进行再一次迭代,同时也会对传统行业转型提出新的挑战。

  生成式AI过去已积累了不少图像、声音等素材,并通过不断学习形成了更为成熟的算法。因此,若是可以通过AI在计算机中创建视频素材,或许将对影视行业产生重大影响。

  刘兴亮称,AI生成的视频可能减少了对人类演员、导演和其他创意角色的需求,从而影响到这个行业的就业。此外,随着AI技术的进步,传统的影视制作流程和商业模式也可能面临重塑。

  不过,刘兴亮指出,这种转型并不意味着传统影视行业的消亡,而是需要与AI技术融合,探索新的艺术形式和表达方式。

  刘兴亮同时提到,随着AI生成内容与现实之间的界限变得越来越模糊,如何确保内容的真实性和透明性成为了一个重要问题。此外,版权、隐私和数据安全等问题也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保技术的健康发展,同时保护个人和社会的利益不受侵害。

  拉大产业竞争差距

  AI生成视频技术或将进入爆发期

  对于Sora当前存在的弱点,OpenAI指出它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,例如遵循特定的相机轨迹。

  以此次发布的DEMO“与中国龙一起庆祝农历新年的视频”为例,Sora无法准确生成视频画面中的中文受到了网友的关注。有相关人士对此调侃道:“莫非是中文太难了?”

  但是任何事件的发生都是从无到有,再从有到精的过程。据悉,Sora如今正面向部分用户开放,以评估关键领域的潜在危害或风险。同时,OpenAI也邀请了一批视觉艺术家、设计师和电影制作人加入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。OpenAI提前分享研究进展,旨在与OpenAI以外的人士合作并获取反馈,让公众了解即将到来的AI技术新篇章。

  OpenAI表示,他们正在教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。

  而相比于其自身缺陷,该技术的广泛前景更为外界所关注。

  近两年,由于人工智能发展迅速,以至于很多企业纷纷加大了对人工智能的投入。科技创业公司研究机构PitchBook估计,2023年全球生成式AI的市场规模将达426亿美元,2026年则将达到981亿美元,未来增长动能可期。

  随着生成式人工智能的市场潜力不断地被挖掘,大大小小的竞争对手开始浮出水面。

  当前,参与该赛道的企业不乏亚马逊、微软、谷歌、百度、阿里等众多互联网巨头,也包括Runway等初创企业。

  有行业人士指出,随着Sora的发布,OpenAI在行业的领先程度立即加大,会将大家紧追的距离再度拉开一大截。未来,解决了人物一致性问题之后,AI生成视频将大踏步前进,AI视频或进入大爆发期。

  综合澎湃新闻、每日经济新闻

  来源:成都商报 【编辑:曹子健】

选择用户
全部人员 全选 撤消
谢志刚
李岩
李海涛
谢志强
李亚琴
潘潇潇
杨亚男
高荣新
郑文静
金琳
张银波
张欣
陈曦
刘涛
王长青
高广柱
孙圆
行政专员
付雪枫
张雪莲
张璐
刘相群
张明璇
李静
孙静
王晨
赵夏
马洪亮
张兰
黄莉
李潍伊
常恩宁
侯昭宇
韩岩峰
冯亚红
林洋
陈静
刘婧
魏保国
唐彦秀
张楠
刘瑞萍
付严明
荣伶
马建国
邓爱青
系统管理员