自建数据系统、专业顾问团队为各领域企业、机构提供专业的市场咨询及市场地位认证服务
400-1050-986
您当前的位置:首页 > 市场资讯
2022年国内外大数据行业重点企业市场竞争规模分析预测及细分应用领域投资战略评估咨询


1、大数据行业发展背景:

(1)大数据时代下传统数据管理软件面临多种挑战:近年来随着互联网、移动互联网、物联网、5G等信息通信技术及产业的不断发展,全球数据量呈爆发式增长态势。数据作为和土地、资本、劳动力、技术一样的生产要素,在数字经济不断深入发展的过程中,地位愈发凸显。我国是数据资源大国,根据统计数据,到2020年,中国数据量约12.6ZB,较2015年增长7倍,年复合增长率为124%。2025年中国的数据量预计达到48.6ZB,约占全球数据总量的30%。数据资源总体呈现出“4V”的特点,即海量的数据规模(Volume)、多样的数据类型(Variety)、价值密度低(Value)、快速的数据流转(Velocity)。

海量的数据规模指数据量大,包括采集、存储和计算过程中所涉及数据量都非常大。大数据的起始计量单位通常是PB(约1,000TB)、EB(约100万TB)或ZB(约10亿TB)。多样的数据类型指数据种类和来源多样化,包括结构化、半结构化和非结构化数据,具体表现为关系型数据、日志、音频、视频、文本、图片、地理位置信息等类型数据,多类型的数据对数据的处理能力提出了更高的要求。

价值密度低指有价值数据所占比例低。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,通过结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代需要解决的重要问题之一。

快速的数据流转指数据增长速度快,处理速度要求快,时效性要求高。例如实时监测场景中,企业需要对物联网设备数据进行实时处理并做出反应;零售电子商务应用类软件将消费者所持的移动设备的地理位置信息和其个人偏好相结合,推送有针对性的促销信息。这是大数据区别于传统数据使用的显著特征。

随着信息技术以及实际业务需求的快速发展,传统数据管理软件在处理大数据场景时不能很好适应数据的“4V”特性,面临较多技术挑战。因此,传统数据管理软件迫切需要技术革新。

中金企信国际咨询公布的《2022-2028年大数据行业全景深度分析及投资战略可行性评估预测报告

(2)传统集中式软件栈向新兴分布式软件栈演进:随着信息技术的发展,数据处理需求的变化推动了数据管理软件技术的变革,从技术发展方向来看,数据管理软件技术发展历程包括以下三个阶段:

数据管理软件主要技术演变及代表性公司分析

 

1970-2000年,数据管理软件主要为集中式架构的关系型数据库,其软件产品具备不可分割性(atomicity)、一致性(consistency)、隔离性(isolation,又称独立性)、持久性(durability)即“ACID”功能特性,占据了数据管理软件的主导地位。关系型数据库技术出现在20世纪70年代,经过二十余年的发展,到90年代已经成熟。市场上具有代表性的集中式架构关系型数据库产品包括Oracle、IBM DB2以及微软SQL Server等。

2000年以来,随着互联网和计算机技术的快速发展,需要处理的数据量更大、类型更丰富、速度要求更快,传统集中式计算架构已无法适应数据海量、异构、多源等特点,在部署的扩展性、容错性、经济性、灵活性等方面有一定局限性。谷歌于2003年-2006年间的三篇论文奠定了分布式存储和计算的基础,而后行业从业者基于以上理论建立了Hadoop、Spark等大数据分布式系统框架,并交由Apache软件基金会托管;2009年,在Johan Oskarsson开源分布式数据库的讨论中,来自Rackspace的Eric Evans重提NoSQL概念,用以指代非关系型的分布式数据存储系统。针对于不同的场景,分别产生了图数据库、搜索引擎、文档数据库、键值数据库等NoSQL数据库,代表性NoSQL数据库提供商包括MongoDB、Elastic等。

2010年以来,随着数字化转型的逐步深化,快速变化的业务场景呈现了复杂化、多样化的态势。复杂的业务场景往往需要使用多种数据模型,以及数据模型间的融合。

这个时期的,行业内大部分数据库都是面向单一数据模型而设计的,用以解决特定业务场景的特定问题。例如,使用传统的关系型数据库解决结构化数据的存储和处理问题、使用图数据库解决图相关的存储和处理问题、使用文档数据库解决文本相关的存储和处理问题。由于结构化数据和非结构化数据通常以不同的格式和模式存储,单模型数据库虽然优化了数据存储和处理,却难以满足日趋增长的、多样的业务场景需求。当同一业务需要用到不同类型数据的时候,受限于单模型数据库的处理能力,客户往往需要部署多个相互独立的单模型数据库,在对不同模型数据进行联合处理的时候,需要对数据进行搬迁或融合,导致架构复杂度高、开发成本高、运维成本高以及数据处理效率低。由此,催生了从单一数据管理系统到融合型、多模型数据管理系统的技术需求。

此外,随着云计算技术的大规模应用,传统各类软件产品都开始由独立部署模式向云服务模式转变。其中数据库作为信息系统核心软件,逐渐附加云化能力形成云原生数据库,以服务的形式对外提供技术支撑。云原生数据库按照部署方式可以分为公有云部署和私有云部署。其中,私有云部署模式由企业提供云数据库依赖的底层物理资源,数据库服务商负责部署云原生数据库软件,后期企业和数据库服务商约定运维维护工作的具体职责分工等,特点是“自有资源池化”,“数据不外流”等。相比公有云部署下的云数据库,私有云模式更加关注信息安全,能够实现对数据安全性和服务质量最有效控制,仅限于企业员工和取得授权的合作伙伴使用。

多模型、数据库云原生相关技术已经成为信息产业的未来发展方向,促使大数据软件进一步革新,规模呈现快速增长趋势,代表性企业如Snowflake、AWS等。相较于国内外的现状,私有云在面向国计民生的相关行业更受客户欢迎,面向私有云模式的云原生数据库预计在未来将获得快速增长。

随着技术不断成熟,分布式架构将逐渐成为主流。自底向上,传统的集中式资源管理调度逐渐向基于云原生技术的分布式统一资源管理平台发展;数据管理软件技术架构也会因为计算模式的转变发生重大变革,传统的集中式数据库逐渐向分布式、多模型数据库发展;传统数据分析软件逐渐向新型的分布式数据开发和智能分析软件发展。

中金企信国际咨询专业编制《大数据项目商业计划书》为企业投融资、项目立项、银行贷款申请、批地申请等提供专业化优质服务。

(3)国产基础软件迎来爆发式增长阶段:当前,中国大数据软件领域处于发展的历史机遇期,我国高度重视大数据在经济社会发展中的作用,十八届五中全会提出“实施国家大数据战略”,国务院印发的《促进大数据发展行动纲要》指出,建立安全可信的大数据技术体系是推进大数据产业基础研究和核心技术攻关的重要目标。“十四五”规划和2035年远景目标纲要提出,培育壮大人工智能、大数据等新兴数字产业,充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统行业转型升级,打造数字经济新优势。全球新一代信息产业处于加速变革期,大数据相关底层技术处于创新突破期,国内市场需求处于爆发期,为国内基础软件厂商带来明确的增长机遇。同时,随着国内基础软件人才的不断增加,在应对新一代场景,不断积累技术经验过程中,国内已形成具备自主研发实力且能与国外厂商竞争的基础软件厂商,并开始实现规模产业化落地。

2、大数据市场构成:大数据行业主要解决大数据的存储、处理、分析和价值发现等问题,实现大数据的业务价值。从产品和服务来看,大数据市场产品和服务包括三个主要部分,即大数据硬件、大数据软件、大数据专业服务。

 

其中,大数据软件部分按照产品功能的不同可以被分为:大数据管理平台、数据应用中间件、数据智能分析工具、大数据应用四个部分。

 

3、大数据全生命周期管理阶段:大数据生命周期进一步细分为大数据集成、存储和处理、治理、建模、挖掘和流通等阶段。各主要环节相关技术简介如下:

(1)大数据集成:大数据集成包括大数据采集和大数据整合。大数据采集主要是通过各种技术手段将分散的海量内容数据(文本、音频、视频等)、行为数据(访问、查询、搜索、会话、表单等)、工业生产数据(传感器数据、监控数据)等从业务系统中收集出来。由于大数据本身具有分散、海量、高速、异质的特征,采集难度较大,因此保证数据采集的稳定性、可靠性、高效性、可用性和可扩展性等是主要的技术目标,越来越多的企业开始选用专业的数据采集服务。大数据整合的目标是将各种分布的、异构的数据源中的数据抽取后,进行清洗、转换,最后加载到数据仓库或数据集市中,作为数据分析处理和挖掘的基础;这个过程常常也被称为ETL(Extract/抽取,Transform/转换,Load/加载),通常ETL占到整个数据仓库开发时间的60%~80%。大数据时代,数据整合软件的市场也开始了整体的技术升级,主要解决两个主要技术问题,一是独立的ETL应用服务器的计算能力普遍不足,二是无法处理半结构化和非结构化数据。经过几年的技术发展,ETL过程逐步演进为ELT,即数据抽取后直接加载(Load)到大数据平台中,再基于大数据平台的计算能力来实现数据转换(Transform),不再依赖ETL应用服务器做抽取和转化工作,这样可以解决ETL应用服务器的处理能力不足问题,充分利用大数据平台的分布式计算能力提升数据集成的效率和稳定性。

(2)大数据存储和处理:大数据存储与处理要用用服务器及相关设备把采集到的数据存储起来,使得数据能够被高效地访问和运算。由于数据量的爆发式增长,尤其是非结构化数据的大量涌现,传统的单机系统性能出现瓶颈,单纯地提高硬件配置已经难以跟上业务的需求,产生的海量数据没有合适的存储场所,企业被迫放弃大量有价值的数据;数据处理的速度和性能出现瓶颈,业务的深度和广度受到限制。因此,过去十年间,计算机系统逐步从集中式向分布式架构发展。分布式架构及相关技术通过增加服务器的数量来提升系统的处理能力,每个节点都是一个可独立运行的单元,单个节点失效时不会影响应用整体的可用性。分布式系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具有明显优势。

(3)数据治理:根据国际数据管理协会的定义,数据治理是对数据资产管理形式权利和控制的活动集合。数据治理是一个管理体系,包括组织、制度、流程和工具,随着集成和存储的数据量增加,数据治理的难度也逐渐增加,牵扯的关联方也越来越多,因此需要一套适合企业的方法论来开展工作。业界逐渐形成了DAMA、DCMM等较完整的数据治理体系框架,一般包括制定数据治理战略、定义数据治理工作机制、通过各个业务专题来落实相关数据治理工作内容,并最终落实到数据治理工具上来实现高效持续的数据治理的执行流程。具体到数据治理的内容,一般包括元数据管理(包括元数据采集、血缘分析、影响分析等)、数据标准管理(包括标准定义、查询与发布等)、数据质量管理(包括质量规则定义、质量检查、质量报告等)、数据资产管理(包括数据资产编目、数据资产服务、资产审批等)、数据安全管理(包括数据权限管理、数据脱敏、数据加密等)、数据生命周期管理(包括数据归档、数据销毁等)以及主数据管理(包括主数据申请、发布、分发等)这几个主要的部分。

(4)数据建模:数据建模是构建企业数据仓库、数据湖和数据集市的重要过程,其通过一个业务级别的数据模型设计,将分散在不同数据源中的数据集成在一起,并通过一种面向业务主题的方式将数据分门别类来做重新组织和标准化,形成有明确业务意义的数据形式,统一为数据分析、数据挖掘等提供可用的数据。面向业务主题(如客户主题、账户主题等)的数据组织管理方式便于业务人员对数据的理解和综合使用。具体到技术层面,数据建模一般包括业务调研、架构设计、数据模型设计、数据库SQL开发与测试、业务集成上线等几个阶段,架构设计是整个工作的核心,一般会面向不同的行业来设计相关行业的逻辑数据模型。在数据建模过程中使用的工具主要包括:数据模型设计与管理工具、SQL开发工具、任务调度工具等。

(5)数据分析和挖掘:大数据分析和数据挖掘的核心目标是对客观事实规律进行描述、展示和总结、刻画、推广,可以从大量的数据中通过算法来揭示出隐含的、未知的并有潜在价值信息,并对客观规律进行溯源和解释,从而帮助决策者做出正确的预测和决策。围绕这个目标,大数据分析和挖掘的手段可以分为模型驱动、数据驱动等,一般通过统计、在线分析、情报检索、机器学习和专家系统等在内的多种方法来实现这一目标。现阶段在面对大数据“4V”问题时,大数据分析和数据挖掘工具对传统数据分析和挖掘工具做进一步自动化和智能化;与此同时,近年来深度学习的兴起又为大数据分析提供了新的手段,其做为当前计算机行业的热点研究方向之一,其本质的目标是从大量数据中提取模式和知识,其要处理的对象包括结构化数据、半结构化数据和非结构化数据在内的所有类型数据,例如近年来在视频、语音等非结构化数据的分析需求快速增加,相应的深度学习技术也取得了飞速发展。

(6)数据流通:数据流通是按照一定规则,将存储的数据或者数据分析、挖掘得到的信息作为流通对象,从供应方传递到需求方的过程。数据流通的具体内容包括可视化的分析报告、面向运营人员的数据标签、面向应用可以直接调用的数据指标API、面向数据分析人员的数据集、面向数据挖掘人员的数据特征、和面向业务建模人员的单方或多方的建模模型等。基于数据水印、数据加密和脱敏、隐私计算、联邦学习的数据流通安全技术,可以提高数据流通的完整性和保密性。

中金企信国际咨询专业编制《大数据项目可行性研究报告》为企业投融资、项目立项、银行贷款申请、批地申请等提供专业化优质服务。

4、大数据竞争企业分析:

(1)国外公司:美国等发达国家信息产业发展较早,以Oracle、IBM和Teradata为代表的关系数据库公司,其关系数据库在大数据环境下部署的扩展性、容错性、经济性、灵活性等方面有一定局限性。因此在大数据领域,新兴的分布式架构大数据平台和/或分布式数据库产品正在逐渐替代传统的关系数据库。以Cloudera、MongoDB、Snowflake、Elastic等为代表的大数据平台和/或分布式数据库产品公司具备较强的技术积累,研发和推出了相应的大数据基础软件及相关产品,获得了市场的认可,且部分公司通过在中国设立分支机构或者通过经销商/合作伙伴,已经在中国市场获得了一定的市场占有率。

(2)国内公司:在国内,大数据市场主要参与者包括公有云厂商、ICT厂商以及专业软件公司,其中以华为云和阿里云代表的国内云厂商,基于自身在公有云环境下的优势,分别推出了各自的大数据基础软件产品,公有云也是该类厂商提供大数据产品的主要方式;伴随近年来大数据市场的快速发展,以新华三为代表的部分ICT厂商,也布局了相关大数据软件产品;随着大数据技术的快速发展,以星环科技为代表的专业软件公司更加专注于细分领域,在特定领域开展研发并推出了迎合中国市场需求的产品,获得了相应的市场份额。

5、行业未来发展趋势:

(1)分布式系统成为行业技术架构主要的发展方向:传统数据库以集中式架构为主,集中式架构由一台或多台主计算机组成中心节点,数据存储以及整个系统的业务单元都集中部署于该中心节点中,系统所有的功能均由中心节点集中处理。每个终端或客户端仅仅负责数据的录入和输出,而数据的存储与控制处理完全交由主机完成。分布式架构下,软件组件分布在不同主机上,主机之间通过网络连接进行通信和协调。

随着海量及异构数据的数据分析需求增长,需要的计算、存储和IO等资源也在极速增加。集中式架构通过改善硬件配置来提升存储和处理能力,但单台主机可配置的资源存在上限,因此传统的集中式架构软件难以满足海量及异构数据的数据集的处理和分析需求。而为了处理TB以及PB级别以上的数据规模,分布式的架构将数据分散在网络上多个通过高速网络互联的节点上联合计算。因为数据分布在不同节点,在进行计算任务时,任务也会被切分成多个子任务,分发到多个节点上同时进行计算,能充分利用整个集群各个节点的计算资源、存储资源和IO资源,可线性提升集群的存储和处理能力。因此,分布式架构能较好的处理该类问题,这也是分布式架构相对于传统单机架构的核心优势。

在大数据场景下,分布式系统在扩展性、容错性、经济性、灵活性、可用性和可维护性方面具有明显优势,能够较好的满足大数据分析的需求。此外,近年来,分布式技术不断发展,在提供高弹性、支持高并发的同时,支持关系型数据库中强事务性的特性,成为大数据技术的重要发展方向。

(2)数据管理软件趋向于统一多数据模型的平台:数据模型是决定数据库系统逻辑的重要因素,并从根本上决定以何种方式存储、组织和操作数据,包括传统的关系模型和NoSQL数据模型(文档模型、键值模型、图模型等)。大多数数据库管理系统只能支持一种或少数几种数据模型,因此企业通常只能使用多种数据库产品联合的方案来应对日益增长的异构数据模型处理需求。

随着大数据厂商技术实力的提升,逐渐出现了能够提供多数据库模型的大数据平台技术。相比多种数据库产品的集成方案,多种数据库模型统一的大数据平台的优势包括:(1)提升场景效率。同一份数据可以分别采用多种数据模型存放,解决不同场景的处理效率问题;(2)统一分析管理。关联不同模型的数据,统一分析管理;(3)降低运维成本。无需维护多种数据库,降低运维成本;(4)降低数据持有成本,同一份数据在不同的数据模型当中不需要全量存储,不同模型只需要存储必要的数据内容即可,在查询时可以通过关联的方式获取全量信息。

未来多模型数据平台将通过不断提高计算、存储引擎的处理能力,从操作响应速度、数据并发能力、数据管理成本等多个角度优化企业的数据需求,成为多模大数据平台的重要发展趋势。

(3)云原生大数据平台架构成为未来的主要发展方向:云原生的代表技术包括容器、服务网格、微服务、不可变基础设施和声明式API,这些技术能够构建容错性好、易于管理和便于观察的松耦合系统。结合可靠的自动化手段,云原生技术使工程师能够轻松地对系统作出频繁和可预测的重大变更。

云原生技术有利于各组织在公有云、私有云和混合云等新型动态环境中,构建和运行可弹性扩展的应用。面对客户日益增长的海量数据、多种数据结构的实时化、智能化处理需求,云原生的大数据平台架构凭借计算存储解耦、资源池化、Serverless等核心技术,提供了高弹性拓展、海量存储、多种数据类型处理及低成本计算分析的能力。相比传统数据库,云原生数据库及数据管理平台天然具备灵活性,能够提供强大的创新能力、丰富多样的产品体系、经济高效的部署方式和按需付费的支付模式。

(4)国家加速数据要素市场建设,推动数据安全流通技术的商业化加速:根据《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》,我国将搭建统一开放、竞争有序的数据要素市场体系,政策鼓励产业链各环节的市场主体进行数据流通和交易,促进数据要素流通。当前,丰富的数据要素资源已经涵盖了政府、金融、运营商、房地产、医疗、能源、交通、物流、教育以及制造业、电商平台、社交网站等众多领域。同时,由于数据的流通和利用是数据要素价值创造的前提。而跨域、跨中心的数据融合计算需求,以及数据要素在开放流通环节中的安全需求(包括“可用不可见”、“可用不可得”、“可用不出域”等),都使得数据的安全可信流通成为数据要素的市场化配置的重要一环,也是各行业数字化转型过程中和过程后的必由之路。

随着《数据安全法》、《个人信息保护法》的实施,以安全为前提的数据开放利用将迎来新一轮发展机遇。隐私计算是在处理、分析计算数据的过程中保持数据不透明、不泄露、无法被计算方以及其他非授权方获取的一种技术解决方案,能够在充分保护数据和隐私安全的前提下,实现数据价值的转化和释放,应用前景和商业价值巨大。在国家加速数据要素市场建设和重视数据安全和隐私保护的大背景下,数据安全防护技术、隐私计算技术的应用普及和商业化在加速进行。

手机验证
请您输入您的手机号,我们将在24小时内与您联系。
  • 输入手机号:

  • 图片验证码:

  • 输入验证码:

您的订单已提交
我们会在24小时内与您能联系
注册
  • 联系人:

  • 联系电话:

  • 企业名称:

  • 手机:

  • Email:

  • 其他要求:

    您可以留下您的疑问,待我们沟通时能更好的解决。您提交订单后,我们会在24小时内与您联系。
网页聊天