新闻资讯 更多+
(1)人工智能语音语言行业基本概述:
1)定义:人工智能语音语言技术即实现人与机器以语言为纽带的信息处理技术,人机对话通过对声音信号的音频采集与信号处理将语音转化为文字供机器处理,在机器进行语音识别与语义理解后、再进行对话管理、自然语言生成并通过语音合成技术将文本语言转化为声音进行输出,最终形成完整的人机语音语言交互。
2)发展历程:1952年,AT&T贝尔实验室成功研究出世界上第一个语音识别系统Audry,标志着智能语音语言技术发展的开始。至今智能语音语言技术已经历经了近70年的发展,经历了技术萌芽期、起步期、变革式发展期、落地可用期共四个发展阶段。
技术萌芽期(1950s-1970s):Audry作为第一个语音识别系统,可以识别10个英文数字发音,该系统基于简单的模板匹配方法识别个体说出的孤立数字,在此之后,连续语音识别系统开始出现。语音合成的参数合成法能生成比较自然的语音。同一时代,以有限自动机和正则匹配理论为基础的文字处理技术出现。
以乔姆斯基的文法和句法结构为代表的理性主义方法,和以香农信息论为代表的经验主义方法都发展起来。出现了一些极为简单的翻译、问答和聊天系统,但都无法实用。
起步期(1980s-2011):在此阶段初期,随着算法模型以及微电子技术的发展,语音识别领域取得了突破性进展。隐马尔科夫模型(HMM)逐渐成熟和不断完善,开始成为语音识别的主流方法,语音识别转向基于概率统计建模的方法,同时神经网络在语音识别中的应用研究兴起。此后语音识别技术逐渐走向实用化,许多具有代表性的产品问世,例如IBM研发的ViaVoice系统,Dragon公司研发的DragonDictate系统,都具有更好的自适应性,能够在使用过程中不断提高识别准确率。2009年,Hinton将深度神经网络(DNN)应用于语音的声学建模,取得了在语音识别方面的重大突破,使语音识别的准确性得到显著改善。与语音技术基本同步,这一时期的自然语言处理技术的发展,也出现了数据驱动的统计模型逐渐占据主流地位的趋势。从概率模型到支持向量机,从线性分类器到神经网络,大量数据驱动的技术被应用到自然语言处理领域,产生了一系列重大成果。这一阶段中,理解、翻译、问答、对话系统等都在限定的范围内逐步实用化。
变革式发展期(2011-2016):2011年,微软研究院又将DNN技术应用在大词汇量连续语音识别任务上,极大地降低了语音识别错误率。2016年,微软AI团队在产业标准Switchboard语音识别任务上,取得了当时产业中最低的5.9%的词错率(WER),5.9%的词错率等同于专业速录员速记同样一段对话的水平,这代表着机器的语音识别准确率第一次达到人类水平,智能语音语言技术开始逐步落地。这一时期中,以连续词向量、循环神经网络语言模型为代表的一系列深度学习技术,进一步大幅推动了自然语言处理技术的发展,复杂场景下的自然语言处理的性能显著改善。
落地可用期(2016-至今):端到端的语音识别开始广泛应用,准确率进一步提升,且针对远场的语音识别和唤醒得到进一步发展,全双工语音交互开始出现。此阶段语音识别的准确率可达98%以上,且能根据实际应用痛点针对性优化。大数据驱动的预训练语言模型的出现,使得自然语言处理技术在这一阶段又上了一个台阶,众多小数据、跨领域的迁移学习技术也应运而生,自然语言处理的技术覆盖范围进一步加强,在产业中得到广泛深入使用。
智能语音技术发展历程示意图分析
(2)人工智能语音语言市场产业链分析:
人工智能语音语言市场的产业链可依据关键技术拆分为六大环节,各个环节又可以进一步归集为声学、语音感知、语言认知三大模块。音频采集与信号处理环节是智能语音语言交互的起点,当前的核心在于回声消除、噪声消除、声源分离、提升远场和复杂声学环境下语音唤醒和识别的准确率等关键技术;语音识别是把语音信号转变为相应的文本或音频类别的过程,当前的核心在于声纹技术、口音适应能力、情绪识别能力、端到端识别、低功耗识别等;语义理解是通过自然语言处理等方式使机器理解语言的过程,当前的核心在于口语语义理解问题、对话关键信息抽取、知识提取及结构化等;而对话管理是以多轮交互为核心的一系列自然语言认知技术的综合,是人机对话系统中的理解、决策和知识中枢,当前的核心在于实现多模态、全双工交互,增强机器在多任务、全场景、全领域的灵活对话能力;知识图谱是现实世界知识的一种表达方式,当前的核心在于知识图谱构建、问答推理等;语音合成即从文本到语音,让机器具备“说话”的能力,当前的核心在于使机器能够实现自然声音、高表现力、小数据复刻转换,以及方言及多语种的语音表达。
人工智能语音语言行业内的大部分公司只专注于产业链的单个或部分环节,少有公司能拥有覆盖产业链各环节的技术、产品与服务,当前国内人工智能语音语言行业的公司大约有400余家,仅有极少数可以实现全产业链覆盖。
中金企信国际咨询公布的《2022-2028年人工智能语音语言行业市场竞争格局调查分析及发展战略规划评估预测报告》
(3)人工智能语音语言行业结构与市场规模:
1)行业结构:
2030年中国智能语音市场细分应用领域分析
研究资料显示,在疫情的催化下,各行业智能化应用迎来需求拐点,进入需求爆发期。预计2030年消费级应用场景总的发展空间将超过700亿元智能家居、智慧驾驶、智能办公等企业级场景在疫情的催化下加速发展,市场需求不断扩大,发展空间预计即将达到千亿规模。
2)市场规模:智能语音语言技术使得人类的生产及生活方式逐步改变,基于智能语音语言技术的人机交互产品在接收用户的声音等信息后,能将用户意图转换为机器可以理解和进一步处理的内容,从而帮助用户解决问题或完成特定任务。其中,对话式机器人可以降低人力成本,减轻人工工作量,提高工作效率,解决用户客服、营销、质检、呼入、呼出等需求;搭载人机对话交互功能的消费级智能硬件,例如智能家电、智能车载、智能可穿戴设备等,能够通过语音语言交互的方式,提供更丰富的设备交互功能,提升设备操控便捷性。2020年我国对话式人机交互核心产品的市场规模达到58.50亿元,带动相关产业经济规模达486.90亿元,预计2025年核心产品规模达到237亿元,带动相关产业规模达到1,525亿元。
2019-2025年中国人机交互核心产品及带动相关产业规模分析
数据统计:中金企信国际咨询
人工智能与实体经济的结合越来越多,与应用场景的深度结合将产生更大的商业价值,近几年,人工智能语音语言技术在各行业的应用已十分广泛,下游领域包括家电、汽车、消费电子、金融、物流、房产、政务、医疗等。2020年智能语音语言技术在各垂直行业应用的核心产品规模达到57.70亿元,带动相关产业规模达317.70亿元,预计2025年核心产品规模达到159.10亿元,带动相关产业规模达到875.10亿元。
2019-2025年中国智能语音垂直行业应用核心产品及带动相关产业规模分析
数据统计:中金企信国际咨询
(4)智能语音语言行业在新技术方面的发展情况和未来发展趋势:近年来,行业内智能语音语言算法不断更新迭代,基础性能持续增强,通用识别准确率等已不再是智能语音语言行业发展的核心挑战,语音语言技术逐步由以语音感知为主,向综合感知、认知、知识计算的全链路对话系统方向拓展。
关键基础算法层面,在可控环境和简单结构化知识源条件下,语音及语言处理技术的性能已经表现良好,达到产业化水平,但在复杂真实环境和自然非结构化语言及知识处理方面,与产业需求仍然有不小差距。例如,在远场、高噪声、多人会议场景下的自由语音识别准确率还有待提升,知识型的开放问答和语义理解对话尚无通用模型。因此,在感知技术方面,业内研究逐步转向聚焦突破高噪声、多干扰、端侧低资源等真实复杂自然场景;在认知及知识计算方面,聚焦理解式的知识问答、对话理解及管理技术,以及专业领域的深度知识结构化,进一步增强面向垂直领域信息智能化的知识图谱、对话问答、阅读理解、翻译等能力。
另一方面,个性化、场景定制化、私有化部署等需求已经成为传统产业进行智能化改造和数字化升级的普遍需求,比如个性化的声音复刻、新语义领域的问答对话、为保护隐私的私有化识别部署等。支撑这一需求的小数据迁移学习和自主学习算法及其在语音语言处理各个领域的结合,也是智能语音及语言行业算法技术发展的趋势。
1)全双工语音出现,人机交互朝着更自然、更顺畅的方向发展:全双工是通信学科中的一个术语,意为允许数据在两个方向上同时传输,应用在智能语音语言行业,即为实时的、双向的语音信息的交互,这是人们进行即兴自由交互情境下的对话模式。目前市场上大部分产品只能满足单轮交互或多轮交互,单轮交互的情景下,用户每次都需要使用唤醒词开启交互,使得人机对话非常割裂;多轮交互的情景下,用户只需一次唤醒,在机器判断任务尚未完成时,会持续的接收用户发出的语音信息,待到机器判断单次任务完成后,再综合信息进行分析并做出回应,但在多轮交互中机器仍不能做到接收信息和发出语音同步进行。区别于单轮交互与多轮交互,全双工可以做到“边听、边想、边说”,在接收语音信息的同时进行思考,并实现动态的预估,进而以更快的速度进行回答,使人机交互更自然、更流畅;同时,全双工语音还可做到节奏控制,根据用户回答内容的重要性,决定打断还是继续倾听,是先完成上一个问题还是先回答用户的追加问题;此外,全双工语音还能进行场景理解,识别用户当前是否在与AI进行对话,并根据不同对象、不同场景进行音量、语气等方面的调节。未来,智能语音语言的应用场景越发多样化,应对的环境状况越发复杂,全双工语音的优势将会越发凸显,并成为智能语音语言行业的主流交互方式。
2)优化人机交互体验,多模态交互成为必然趋势人类在交互过程中并非孤立地依据声音、表情及动作中的单项进行沟通与交流,而是综合视觉、听觉、触觉甚至嗅觉来进行有效的沟通。同理,要使机器做到更加逼真的“拟人化”,就需要通过语音、视觉、文本等信息结合的方式来推动人机交互的优化与升级。例如,在复杂声学环境尤其是多人同时说话的时候,语音识别性能会显著下降,此时若引入视觉信息对讲话者进行唇语识别,综合语音和视频信息则可以大幅提升说话人跟踪和语音识别准确率;又例如,在人机交互过程中,机器通过采集用户的表情、说话语气,甚至脚步的频率和急缓程度,可以分析用户的情绪状态,以采用不同的方式推进交互,提高人机交互的交互效率与质量。应对人机交互场景化应用不断拓展的市场需求,多模态、智能化的完整解决方案可以更好地应对不同场景的复杂变化,多模态交互成为行业发展的必然趋势。
3)芯片研发日益关键,端侧智能与云侧智能双轮驱动AI深度应用:目前基于深度学习的智能算法通常运行于具有强大计算能力的云计算中心,而相比于云计算,边缘计算将资源和服务下沉到网络边缘端,从而带来更低的带宽占用、更低的时延、更高的能效和更好的隐私保护。随着移动终端设备的普及率越来越高,未来行业将逐步将人工智能模型全部或分布式的部署到资源受限的终端设备上,与云侧智能协同。同时,结合感知硬件和计算模组的软硬一体化解决方案,也成为人工智能软件算法技术落地优化的趋势。软硬一体化的方案将更容易提升人工智能用户的最终体验,更好解决AI落地的“最后一公里”问题。
软硬一体化的重要形态就是专用人工智能芯片。专用芯片往往是场景化或针对特定功能的,成本和效率大大优于通用芯片,可以进一步提高产品端侧的计算效率,并提升针对特定应用场景的优化适应能力。未来,人工智能语音芯片的发展将进一步推动智能语音语言产品在各垂直行业领域商业化落地。
4)以对话交互为核心的认知和知识计算成为智能信息服务的重要技术趋势:基于知识交互的认知智能是信息服务智能化的核心技术,在智能客服、教育、办公、金融、政务、医疗等各个垂直领域的数字化转型中具有重要作用。在各类智能信息软硬件爆发式增长的大背景下,对话式语言认知智能,尤其是对话理解和管理技术,将成为感知与认知系统级融合的关键技术,极大影响用户体验。另一方面,针对垂直领域的复杂结构化数据库、各类知识文档等多种形态的原始知识源,进行知识结构化和知识图谱构建,形成可控人机理解式交互的知识源,支撑知识问答和对话,支持人类决策,将是面向信息服务智能化的知识计算的发展方向。
5)系统级的大规模场景化柔性定制成为平台赋能传统产业的关键:在系统工程及赋能平台层面,由于人工智能赋能产业过程中的场景化定制需求巨大,当前智能语音语言行业的公司逐步由向硬件设备厂商提供单一技术授权或单点技术的项目制开发等商业模式,逐步转向以最终用户体验为目标的轻量化需求产品的快速迭代、规模化定制开发和软硬一体化,通过提供人工智能芯片及模组、智能语音及语言技术定制接口、业务级对话技能开发以及灵活的知识资源库等智能语音语言的全链路柔性定制方案,增加技术输出的厚度,扩大技术输出的边界,增加下游产业的粘性,形成生态优势。
(5)智能语音语言行业在新产业、新业态方面的发展情况和未来发展趋势:数字化转型催生了两个重要趋势,一是智能信息硬件的大量出现和快速普及,二是各类生产、生活、治理场景的数字化过程中产生了海量的知识信息。语音及语言技术,作为连接人与智能设备、进行知识信息服务处理的核心人工智能技术,在这两个趋势下发展前景广阔。近年来,人工智能语音语言技术与生产、生活和社会治理深度融合,不断推动经济社会数字化转型。智能语音语言技术产业化的程度进一步加深,应用场景不断扩展,在汽车、家居、金融、教育、医疗、公共卫生、政务等领域均应用广泛,并形成了全新的产业链条。同时,随着智能语音语言技术的各项应用逐渐落地,用户对产品的使用逐步深化,人们对智能语音语言产品产生更多的期望,未来智能语音语言行业的发展将会更加聚焦在使用体验上,智能语音语言产品将朝着更加智能、更加人性化的方向发展,各类应用从单向指标的不断优化过渡到重视整体商业落地性能。例如,从追求语音识别的高准确率到关注产业化场景应用能力、整体运行稳定性、响应速率等。
1)智能硬件终端:2020年在我国各类智能硬件中,以本地或云端算法形式及语音AI芯片硬件形式提供语音交互能力的市场规模达到31.4亿元,到2025年将突破138亿元,2019-2025年CAGR为35.2%。随着智能物联网(AIoT)产业发展,到2025年,65%以上的家庭将拥有智能音箱、智能机器人、智能面板等各形态的AI管家,未来搭载语音交互能力的硬件设备总量将非常可观、潜力巨大。
语音作为人类最便捷、自然的沟通方式,是物联网人机交互的最佳入口。人工智能语音语言技术与物联网相结合,使用户可以直接通过对话与物联网各类终端设备交互获得即时服务,大幅提升生活质量。例如,智能家居领域,由智能家电等各类硬件、智能软件系统、云计算平台构成了家居生态圈;智能汽车领域,语音交互成为最安全便捷的车内信息交互方式,不再局限于简单的问路导航,还可全面覆盖车主在用车环节中所涉及的使用场景,包括对车主的画像分析、行为感知、车后市场服务的推荐和应用等。
2)智能信息服务:随着大量信息被数字化和知识化,智能信息服务在生产、生活、社会治理的各个领域都日益得到广泛重视,应用的需求不断增长。智能问答、对话机器人、信息及知识提取、语义分析、知识图谱、知识及信息搜索、机器翻译等语音及语言技术在智能信息服务相关的系统中都有广泛应用。
企业的智能客服系统通过自动人机对话交互和语音语言分析功能,提供信息查询、问答服务、通知互动、服务规范化质检等服务,减少人工成本,减轻人工工作量,减少用户等待应答时间,提高了企业的服务效率。医院及健康管理方面,通过智能对话机器人的导诊、预问诊、随访等服务,帮助病人和医生提升问诊和诊后管理效率,推进普惠医疗,通过医疗信息的知识结构化和语言处理,为医生提供辅助诊疗支撑。社会治理方面,通过语音语言技术,实现社区信息摸排智能化。如新冠疫情爆发后,疫情防控智能机器人的语音电话排查服务,大大提升了疫情防控工作效率,降低工作人员与返乡、疑似群体的传染风险,大数据分析也为抗疫工作的开展提供了数据支撑。