“大数据”这个术语在20世纪90年代后期首次成为科技词汇。当时SGI公司的John Mashey等人开始使用这个术语描述企业拥有和产生的庞大且不断增长的数据,这些数据当时难以使用可用的技术进行存储和分析。
2001年,分析师Doug Laney建议对大数据进行定义,其中包括三个V:数量(volume)、速度(velocity)和种类(variety)。在接下来的几年中,Laney的定义成为了行业标准,并且有些人在这个定义中增加了第四个V- 变异性(variability)。
2005年,当雅虎公司推出Hadoop开源分布式数据存储时,大数据技术向前迈进了一大步。该项目成为整个商业和开源数据存储和分析解决方案生态系统的关键。
2014年,IDC公司和EMC公司发布了他们最新的数字宇宙的研究报告,报告显示全球数字系统存储的数据量每年增长40%。这些研究机构预测,到2020年,数字世界将拥有44泽字节的信息,而这几乎与宇宙中的恒星数量一样多。
如今,大数据当然没有变得更小,但是增长数据存储的规模不再像以前那样受到关注。相反,大多数组织都专注于分析、数据科学和机器学习。他们已经接受管理大数据只是公司业务的一部分的事实,如果他们想要竞争并取得成功,他们需要找到方法将这些大数据变成宝贵的见解。
大数据市场概述
大数据技术的企业支出在过去十年持续攀升。根据IDC公司的数据,全球大数据和业务分析收入可能从2017年的1508亿美元增长到2020年的2100亿美元,年复合增长率为11.9%。
IDC公司副总裁Dan Vesset表示:“经过多年的采用后,大数据和业务分析解决方案终于成为主流。大数据分析作为决策支持和决策自动化的推动者现在已经得到企业高层管理人员的高度关注,这种类型的解决方案也是在全球各个行业和业务流程中实现数字化转型工作的关键支柱之一。”
研究报告表明,企业的大数据举措正在对他们的利润产生积极影响。在NewVantage Partners进行的大数据高管调查中,80.7%的受访者表示他们的大数据投资是成功的,48.4%的受访者表示他们已经通过大数据举措实现了可衡量的收益。
这些结果可能会鼓励企业继续投资大数据,但他们采用的大数据解决方案类型正在发生变化。根据Forrester Research公司的调查报告,“大数据转向云计算是事实,通过云订阅的全球大数据解决方案支出的增长速度将比内部订阅快7.5倍。”
该公司补充说,“此外,根据2016年和2017年对数据分析专业人士的调查,公共云是大数据的首要技术优先事项。”
采用云计算对于依赖机器学习技术的大数据分析来说特别流行。采用机器学习需要先进且昂贵的计算硬件,但在云中运行机器学习使组织能够以自己的数据中心所花费成本的一小部分来采用该技术。虽然企业面临着与云计算分析相关的一些挑战,但专家表示,这种云计算分析趋势在未来几年可能会加速实现。
大数据技术的市场细分
随着大数据市场的成熟,供应商开发了各种各样的大数据技术来满足企业需求。这是一个非常广阔的市场,但大多数大数据解决方案都属于以下几类之一:
•商业智能(BI):商业智能解决方案为通常存储在数据仓库中的业务数据提供分析和报告功能。根据Gartner公司的预测,商业智能和分析市场预计将从2017年的183亿美元增加到2020年的228亿美元。然而,这一增长速度比过去有所放缓。
•数据挖掘:数据挖掘是一个广泛的类别,涵盖了用于查找大数据模式的各种技术。虽然许多大数据解决方案仍然提供数据挖掘功能,但这个术语已经不太受欢迎,因为供应商使用“预测分析”和“机器学习”等术语来描述他们的解决方案。
•数据集成:大数据分析的一大挑战是收集来自不同来源的所有相关数据,并将其转换为可易于分析的格式。这导致了大量的数据集成解决方案,这些解决方案有时也被称为ETL(简称“提取、转换、加载”)解决方案。根据调查数据,到2022年,数据集成的市场收入可能会达到124亿美元。
•数据管理:这类解决方案包括帮助组织整合、清洁、存储、保护和确保其数字数据质量的工具。调查报告中预测,到2022年,这类大数据工具的市场收入将达到1052亿美元。
•开源技术:许多最广泛使用的大数据技术可以在开源许可证下获得。特别是由Apache基金会管理的Hadoop和Spark等技术已经非常流行。许多供应商提供这些开源大数据技术的商业支持版本。
•数据湖:数据湖是一个存储库,可以从各种来源获取数据并以原生格式存储数据。这与数据仓库有所不同,后者存储已经过清理和格式化以用于分析的数据。数据湖泊很受希望对结构化数据和非结构化数据执行分析的组织的欢迎。
•NoSQL数据库:与关系数据库管理系统(RDBMSes)不同,NoSQL数据库不会将信息存储在具有行和列的传统表中。相反,他们使用其他模型,如列、文档或图形来跟踪数据。许多企业使用NoSQL数据库来存储非结构化数据进行分析。
•预测分析:目前最流行的大数据分析形式之一,预测分析着眼于历史趋势,以便对未来可能发生的事情提供一个良好的估计。许多现代预测分析解决方案都集成了机器学习功能,使他们的预测随着时间的推移变得更加准确。在Zion Market Research公司的调查报告中,预测分析支出可能从2016年的34.9亿美元上升到2022年的109.5亿美元。
•规定性分析:规定性分析比预测分析更进一步。除了告诉组织未来可能发生的事情外,这些解决方案还提供了建议的行动方案,以实现预期的结果。专家表示,目前市场上很少有(如果有的话)大数据分析解决方案具有真正的规范功能,但这是供应商进行深入研究的一个领域。
•内存数据库:内存技术使得大数据分析显著加快。在任何计算机系统中,访问内存中的数据(有时也称为RAM)比访问存储在机械硬盘驱动器或固态硬盘驱动器上的数据要快得多。内存数据库允许用户将大量数据存储在内存中,从而大大提高速度。
•人工智能和机器学习:许多下一代大数据分析工具都集成了机器学习,这是人工智能(AI)的一个子类。机器学习使用算法来帮助系统随着时间的推移逐渐完善,而不需要明确的编程。这是大数据市场增长最快的领域之一。
•数据科学平台:许多供应商已开始将其大数据分析解决方案标记为“数据科学平台”。这一类产品通常在统一平台中包含许多不同的功能。几乎所有这类产品都具有一些分析和机器学习功能,而且还有许多产品也具有数据集成或数据管理功能。