拓宽行业应用场景 多模态大模型加速通用AI进程

发布时间:2024-11-17 13:49:16 来源: sp20241117

人民网北京2月26日电 (焦磊)只需输入文本指令,便可生成60s的视频内容,并在画面效果、视频时长、流畅度和逻辑性等方面具备惊人效果……近日,OpenAI发布的文生视频大模型Sora迅速引发人们关注。业内分析认为,该项新产品或将促使大模型厂商加大对多模态大模型的研发投入,并进一步推动AGI(通用人工智能)进程。

一直以来,视频领域便是被普遍看好的AI应用落脚点之一。继可生成图文的ChatGPT之后,Sora的发布迎合了业内对多模态大模型的期待。

模态即每一种信息的来源或形式。人们在信息获取、环境感知、知识学习与表达等方面都是采用多模态的输入、输出方式。

华福证券研报表示,相比单模态,多模态大模型同时处理文本、图片、音频以及视频等多类信息,与现实世界融合度高,更符合人类接收、处理和表达信息的方式,与人类交互方式更加灵活,表现得更加智能,能够执行更大范围的任务,有望推动AI迈向AGI。

此前,大模型在各个领域的应用主要集中在文生文、文生图之上,而在文生视频领域却进步缓慢。业内分析表示,此次Sora的发布,将促使多模态大模型成为生成式AI的重点发展方向。未来人机交互将通过文字、视觉、语音等多维度沟通,进而提升效率,逐渐向AGI方向迈进。

值得一提的是,国务院国资委日前召开“AI赋能产业焕新”中央企业人工智能专题推进会。会议提出,开展AI+专项行动,强化需求牵引,加快重点行业赋能,构建一批产业多模态优质数据集,打造从基础设施、算法工具、智能平台到解决方案的大模型赋能产业生态。

视频大模型的创新进步,也引起人们对相关内容行业变革的思考。

浦银国际分析认为,对于短视频,Sora提升了内容供给及创作质量,并有效降低了门槛和成本,或将进入“全民创作”时代。而长视频对内容质量等专业化要求较高,AI生成视频在精准度、可编辑性等方面仍需进一步打磨,长期发展空间广阔。

IDC中国研究总监卢言霞认为,Sora将最先应用于短视频、广告、互娱、影视、媒体等领域。在这些领域采用多模态大模型能力,辅助人类员工生成视频,既可以提高生产速度又可以提高生产数量,还可以创造全新的视觉感受,能够帮助企业真正实现降本增效、提升用户体验。

与图文相比,视频内容所包含的数据量巨大,因而引发人们对算力需求的关注。业内分析认为,AI视频对算力的需求将会是几何式增长,算力限制可能是影响文生视频类应用开放使用的重要因素。

卢言霞表示,多模态大模型对算力的消耗更高,算力的可获取性以及成本将是挑战之一。此外,多模态大模型将带来更严峻的安全挑战。一方面多模态大模型将读取更多的图像、视频类数据,这些图像视频数据是否合规是否安全,需要得到保障;另一方面,生成视频与真实世界之间的差异,需评估是否会影响到人身安全、社会稳定、企业安全等。

根据华泰证券研报,2023年实际诞生文生视频大模型达到数十个,全球用户数量超过百万级别,但目前多数视频模型仍处于产品早期阶段。从创作端看,市场上已公开的大多数模型出自初创公司和小型技术开发团队,包括Runaway、Pika等,且目前已呈现较为可观的完成效果和商业模式。(实习生张泊洋对此文亦有贡献)

(责编:王连香、吕骞)
选择用户
全部人员 全选 撤消
谢志刚
李岩
李海涛
谢志强
李亚琴
潘潇潇
杨亚男
高荣新
郑文静
金琳
张银波
张欣
陈曦
刘涛
王长青
高广柱
孙圆
行政专员
付雪枫
张雪莲
张璐
刘相群
张明璇
李静
孙静
王晨
赵夏
马洪亮
张兰
黄莉
李潍伊
常恩宁
侯昭宇
韩岩峰
冯亚红
林洋
陈静
刘婧
魏保国
唐彦秀
张楠
刘瑞萍
付严明
荣伶
马建国
邓爱青
系统管理员