新闻资讯 更多+
(1)全球AI基础数据服务行业的发展情况:全球基础数据服务行业处于快速成长期,市场规模具有较大的增长空间。应场景的创新和机器学习算法的流行直接带动了训练数据需求的大幅增长,这种趋势导致训练数据难以获取和数据科学家、数据工程师等人力资源稀缺成为制约AI产业发展的两大挑战。根据研究资料显示,72%的受访者认为至少使用超过10万条训练数据进行模型训练,才能保证模型有效性和可靠性,96%的受访者在训练模型的过程中遇到训练数据质量不佳、数量不足、数据标注人员不足等难题。为应对训练数据所带来的多方面挑战,AI企业开始从第三方购买原料数据收集、训练数据生产和数据专家咨询等服务,调研结果指出,外包服务能够有效加快算法模型落地应用的速度。因此,得益于训练数据需求增长和对外采购意识的形成,全球基础数据服务行业进入快速成长期,市场规模具有较大的增长潜力。
中金企信国际咨询公布的《2022-2028年中国AI基础数据服务行业市场全景调研分析及投资可行性研究预测报告》
(2)中国AI基础数据服务行业市场规模与需求类型:
①中国基础数据服务行业的市场规模:从AI产业链的发展情况和未来发展趋势来看,中国基础数据服务行业的市场规模将不断扩大。一方面,随着算法模型、技术理论和应用场景的优化和创新,AI产业对训练数据的拓展性需求和前瞻性需求均快速增长;另一方面,随着行业内对训练数据需求类型的增加以及对服务标准要求的提高,产业链的专业化分工将愈加清晰,专业化的训练数据服务提供商将扮演更加重要的角色。
中金企信统计数据显示:2019年中国基础数据服务行业的市场规模达到30.9亿元,预计2025年将突破100亿元,复合年增长率达到21.8%。
②中国AI基础数据服务行业需求类型:按数据类型划分,中国基础数据服务行业的市场需求可以分为图像类数据需求、语音类数据需求和自然语言处理类数据需求。2019年,图像类、语音类和自然语言处理类数据需求规模占比分别为49.7%、39.1%和11.2%。
(3)中国AI基础数据服务行业市场规模增长的驱动因素:随着基础数据服务行业的市场规模增速平稳向上,增量市场将替代存量市场成为主要拉力。从需求方的角度看,基础数据服务市场可以分为存量市场和增量市场:存量市场是指训练数据服务行业已有并且稳定的业务范畴,如人脸识别、车辆识别、图片识别、语音识别等相关业务,增量市场是指海外业务、新增需求方、新增业务场景等。在存量市场中,巨头互联网科技公司和AI公司为主要需求方,项目落地所需的训练数据逐渐成为需求核心,目前存量市场仍是基础数据服务市场的需求主体。增量市场是相对于存量市场而存在的,以海外市场、国内新需求方市场、国内新兴业务拓展和国内新成立的AI创业公司的需求为主,目前增量市场对于整体市场规模的贡献率较低,但随着中国AI技术的不断深入与国际化,增量市场将在未来成为主要的拉动力量。
基础数据服务行业市场规模增长的驱动因素可以分为外部因素和内部因素。在外部因素方面,AI产业支撑体系方面的政策支持、投资机构的资金投入、科技巨头企业的AI生态链布局将推动基础数据服务行业加速发展。在内部因素方面,现阶段有监督的深度学习算法的广泛应用为基础数据服务行业带来稳定的市场需求,未来AI新场景、新模式、新业态的不断涌现将对训练数据的数量和类型提出更高的要求,为基础数据服务行业带来源源不断的新生市场需求。
(4)中国基础数据服务行业主要市场参与者:
①中国基础数据服务行业的产业链情况:中国基础数据服务行业的上游包括数据生产者和数据生产组织者,主要提供原料数据的采集服务;中游包括基础数据服务商,主要通过数据处理能力和项目管理能力完成训练数据集结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关服务;下游包括科技公司、行业企业、AI公司和科研单位,主要负责算法研发。海天瑞声位于基础数据服务行业的中游,属于基础数据服务商。
②中国基础数据服务行业的市场参与主体:当前,中国基础数据服务行业的市场参与主体主要包括下述几类一是学术机构,为开展相关研究工作,自行采集、标注,并建设学术训练资源库。这类训练数据主要用于算法的创新性验证、学术竞赛等,但通常其迭代速度较慢,难用于实际应用场景。
二是政府等中立机构,他们以公益形式开放的公共数据,主要包括政府、银行机构等行业数据及经济运行数据等,数据标注一般由使用数据的机构完成。
三是需求方自建基础数据团队,需求方科技公司或AI公司等为开展业务而自行建设训练资源库,一般自行采集、标注形成自用训练数据,或采购专业数据公司提供的数据外包服务。
四是基础数据服务商,依据业务规模可以进一步分为品牌数据服务商和中小数据供应商。这类公司业务包括出售现成训练数据集的使用授权,或根据用户的需求提供数据处理服务(企业自行采集或用户提供原始数据、企业对数据进行转写、标注),具体业务服务形式包括且不限于提供训练数据产品、提供数据采集服务、提供数据转写标注服务等。
③中国基础数据服务行业的竞争格局:在上述的参与主体中,品牌数据服务商、中小数据供应商和需求方自建基础数据团队构成市场竞争关系,为基础数据服务市场的主要供应方,在2019年市场规模中的份额占比分别为30.4%、47.0%和22.6%,目前中小数据供应商是市场中的主要供应力量。
从供应方的发展来看,行业内部处于“洗牌”阶段,未来品牌数据服务商阵营将替代中小型供应商阵营,占据市场的主要份额。
目前,中小型数据供应商的整体体量仍然可观,但随着业务门槛提升、客户需求多样化、价格战中利润被压缩等情况成为常态,越来越多的中小型数据供应商面临经营困境,所占市场份额将呈现持续缩小的趋势。
中金企信统计数据显示,2019年中小型数据供应商份额比预期值缩小了20.8%,而这部分份额按7:3的比例向品牌数据服务商和需求方自建基础数据团队释放,因此,品牌数据服务商将在行业内部调整阶段获益最多。
作为行业的头部阵营,海天瑞声等品牌数据服务商在品牌效益、团队建设、资质、服务意识、业务能力等方面均有优势,这些企业的盈利能力和市场份额将在行业内部调整的过程中逐渐提升,并将在未来增量市场成为主要拉动力的竞争阶段占有更大的主动性。
(5)行业发展态势:
①需求方对训练数据的要求向精细化转型:在行业发展初期,基础数据服务行业的门槛较低,玩家鱼龙混杂,行业标准模糊,服务质量参差不齐。随着AI产业落地成为主旋律、行业整体竞争愈发激烈,需求方对训练数据质量的要求不断提高,垂直场景的定制化训练数据需求成为主流,需求方市场对训练数据的要求逐渐向精细化转型。
需求方对训练数据的精细化需求主要体现在两方面。一方面,人工智能算法应用要经历研发、训练和落地三个阶段,需求方根据算法应用的不同阶段对训练数据提出差异化需求:研发需求是对新拓展领域或新建算法的训练,对数据数量的要求较高,但数据标注内容倾向于标准化;训练需求一般是对算法的准确性和健壮性进行优化,对数据标注的内容需求较为丰富,对数据准确性要求较高;落地需求一般为算法较成熟的核心场景,对训练数据的内容有特定指向,采标难度较大,同时对基础数据服务商的技术能力、服务意识、稳定性和效率有较高要求。
随着人工智能技术的发展及与应用场景的深入结合,训练需求和落地需求逐渐成为主流。另一方面,需求方对基础数据服务商的数据安全、采标能力、数据质量、管理能力、服务能力等核心能力提出了更高的要求:在数据安全方面,需求方对数据授权、数据传输、存储及结项后的数据销毁等环节更加重视;在采标能力方面,需求方更关注服务商在某些特定领域或垂直场景的采集能力、定制研发标注工具的能力以及对项目需求的理解程度;在数据质量方面,需求方对首次交付的准确率提出更高要求;在管理能力方面,需求方注重服务商的项目管理能力、服务效率以及执行团队的素养与信誉;在服务能力方面,需求方希望基础数据服务商具备快速响应能力和主动服务意识。
②中小型数据供应商市场份额缩小,品牌数据服务商价值凸显:中国基础数据服务行业的上游包括数据生产者和数据生产组织者,主要提供原料数据的采集服务;中游包括基础数据服务商,主要通过数据处理能力和项目管理能力完成训练数据集结构设计、数据加工和质量检测等工作,为下游客户提供训练数据产品和相关服务;下游包括科技公司、行业企业、AI公司和科研单位,主要负责算法研发。海天瑞声位于基础数据服务行业的中游,属于基础数据服务商。
基础数据服务行业的竞争格局正发生剧烈变化。由于目前基础数据服务行业对劳动力存在密集型需求,人力输送和项目转包等服务形式仍然存在,因此中小型数据供应商仍占有一定的市场份额。但随着业务门槛提升、客户需求向精细化转型,众多中小型数据供应商在数据质量和采标能力方面达不到相关要求,将逐渐远离“利润中心”,面临被淘汰或被整合的局面。根据中金企信统计数据,2019年中小型数据服务商市场份额比预期值缩小20.8%,相应市场份额按7:3的比例向品牌数据服务商和需求方自建基础数据团队转移,因此品牌数据服务商将获得大部分“红利份额”,商业价值逐步凸显。