中国首个支持30种方言混说语音大模型发布

发布时间:2024-12-05 11:46:29 来源: sp20241205

   中新社 福州5月25日电 (记者 刘育英)AI(人工智能)正在为传承语言文化注入全新生命力。中国运营商发布首个支持30种方言混说语音大模型。

  25日,在第七届数字中国建设峰会上,中国电信人工智能研究院发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是国内支持最多方言的语音识别大模型。

  中国幅员辽阔,“百里不同俗,十里不同音”。各种方言语法语音特征各不相同,传统的方言研究依赖于调查者主观感知标注,人力工程量巨大且难以系统标注。而AI能够更高效、系统地对方言进行整理归纳,对方言保护和传承意义重大。

  构建高质量方言数据库,是方言保护和研究的基础。中国电信人工智能研究院已构建超过30种、超30万小时的高质量方言数据库,方言数据库在丰富性和高质量等层面均居于业内前列。

  此外,中国电信研发团队首创“蒸馏+膨胀”联合训练算法,解决超大规模多场景数据集和大规模参数条件下,预训练坍缩的问题。

  据悉,星辰语音大模型已广泛应用落地。星辰语音大模型已在福建、江西、广西、北京、内蒙古等地的中国电信10000智能客服试点应用。接入星辰大模型以后,智能客服秒懂30种方言,实现日均处理约200万通电话。此外,星辰语音大模型还落地多地市的12345平台。(完) 【编辑:邵婉云】

选择用户
全部人员 全选 撤消
谢志刚
李岩
李海涛
谢志强
李亚琴
潘潇潇
杨亚男
高荣新
郑文静
金琳
张银波
张欣
陈曦
刘涛
王长青
高广柱
孙圆
行政专员
付雪枫
张雪莲
张璐
刘相群
张明璇
李静
孙静
王晨
赵夏
马洪亮
张兰
黄莉
李潍伊
常恩宁
侯昭宇
韩岩峰
冯亚红
林洋
陈静
刘婧
魏保国
唐彦秀
张楠
刘瑞萍
付严明
荣伶
马建国
邓爱青
系统管理员