雷火竞技-“AI+粤语”  科大讯飞携手香港特区立法会突破业界难题

2025-08-14 21:48:06

科技日报记者 都芃

日前,中国香港特区立法会正式公布,其与科年夜讯飞结合打造的搭载AI及时字幕功效的聪明抄写体系“智识听”正式上线。

“智识听”深度适配集会场景的AI及时字幕功效,应用了科年夜讯飞中英粤混读引擎,联合声纹辨认及字幕与帧画面临齐压抑技能,可实现集会直播中文字及视频画面的同轨显示,公家可以经由过程网站平台,收看带有及时字幕的集会直播,无障碍获取相干资讯。

呆板转写、呆板同传其实不是一件新鲜事。但此前因为延迟高、专业术语过错率高、差别语种切换未便等,呆板同传于年夜型集会勾当中只能作为参考。AI技能的快速成长完全转变了这一近况。google、科年夜讯飞等人工智能企业纷纷于多语种智能语音技能上发力。

中国拥有多种处所方言、平易近族语言,这给集会记载转写、同传翻译等智能语音场景带来了挑战。例如,传统的语音转写东西于面临多语种、多方言时,往往要手动切换语言引擎,致使于多语种同化的场景中会频仍呈现转写断层。

粤语、平凡话、英语混淆利用的场景于中国香港很是常见。“中国香港特区立法会主席梁君彦师长教师带队来到科年夜讯飞时,说粤语、非尺度粤语、英语、非尺度平凡话的同事,还有有说其他差别语言的同事,都对于及时转写功效举行了现场测试,远超他们预期。”科年夜讯飞董事长刘庆峰此前先容,为了霸占多语种翻译辨认难题,项目团队收拾了2.5亿汉字的中英文比照及20万个高频粤语辞汇,将其作为语料库提供应语言引擎举行进修,进一步晋升了该技能现实运用效果。

今朝,“智识听”及时字幕的正确率达96%,经由过程幕后人工的及时批改,人机联合后正确率可达99%。其可以实现1分钟讲话稿处置惩罚时间从8—12分钟缩短至3—4分钟,择要收拾效率晋升10倍。此外,跟着平凡话、粤语、英语之间的翻译体验逐渐优化,“智识听”后续还有将推出繁体字幕天生、一键集会概要天生等功效。于不久前中国香港举办的“AI+Power 2025”勾当上,该项目获评“年度AI项目年夜奖”。

以“智识听”为代表,集成多项AI焦点技能的讯飞听见多语种集会体系,如今不仅撑持粤普、中英、粤英混淆辨认和三语双向互译,还有提供多语种操作界面,并撑持私有化部署,确保数据安全。其同传功效可快速转达集会信息,布局化数据治理便在回溯查找,上传音频转写处置惩罚高效,并可智能区别讲话人,辅助快速成稿。

于一系列结果暗地里,是科年夜讯飞于智能语音技能范畴的深挚积淀。2024年,由科年夜讯飞牵头的“多语种智能语音要害技能和财产化”项目得到2023年度国度科学技能前进奖一等奖,构建起具备中国自立常识产权的多语种智能语音技能系统。

实在早于2014年,科年夜讯飞便最先研究包括中国部门平易近族语言于内的小语种智能语音技能,与北京外国语年夜学、上海外国语年夜学等成立紧密亲密互助,堆集了名贵资源,沉淀年夜量技能。

例如,针对于部门小语种练习常识匮乏、练习数据稀缺,团队设计出全新的多语种通用音素系统及基本语言单位,实现多语种同一音素韵律系统的构建。于练习数据数目、质量有限的环境下,显著晋升了小语种语音体系机能。

此外,为解决繁杂运用场景下语音交互、语音翻译面对的深条理语义理解坚苦、专业性不足等难题,研发团队还有提出了多源常识加强的可托文本天生技能,晋升专有辞汇和范畴常识援用的正确率。

科年夜讯飞相干卖力人认为,年夜模子时代的语音技能素质上是一次鞭策万物互联及原有人机交互场景重构的巨年夜财产时机,是语音财产的全新战略机缘。

着眼将来,年夜模子技能将于繁杂语义理解、长文本建模能力长进一步晋升语音辨认、合成及翻译的效果。同时基在年夜模子强盛的语义理解、常识问答、多轮对于话、多模态建模能力,其也将进一步晋升智能语音技能的利用场景及运用价值,加快通用人工智能时代到来。

今朝,科年夜讯飞于中国香港已经形成多元化营业结构,并以中国香港为“桥头堡”,鞭策中国人工智能技能加快出海。其自立研发的多语种智能语音技能已经撑持69个语种,为华为、比亚迪、海尔等中国企业的1.2亿台(套)装备提供语音交互撑持,为“中国智造”走出去提供语言与AI能力保障。

-雷火竞技

分享