大数据如果应用不当可能很容易失控,并可能消耗企业资源和预算。在这里将介绍避免混乱的一些大数据的最佳实践。
大数据可以为用户提供卓越的洞察力,也有可能让企业不堪重负。而企业根据其收集数据做出自己的选择。企业面临的主要问题是大数据是由技术专业人员收集的技术解决方案,但最佳实践是其业务流程。
由于资源和输入设备得到爆炸式增长,人们收集到的数据比以往更多。根据IBM公司的调查,大多数美国公司存储的数据量为100TB,而美国的政府部门和企业每年因数据损坏而造成损失高达3.1万亿美元。
然而,企业创建数据湖或数据仓库并将它们存满数据,其中大部分数据未被使用或曾被使用过。企业的数据湖将快速积累成为存满数据的信息池。
最基本的问题是许多数据只得到了部分处理或完全偏离了基础。数据收集不正确或收集手段没有正确定义。企业的业务很明显与大数据有关。
这对于商业数据库中使用的常规的、日常的、小级别的数据来说是个小问题。对于企业来说,需要大数据处理大量的信息。因为其数据的规模巨大,获得收益或混淆的可能性也越大。因此,“正确”变得更为重要。
那么在大数据中“正确”意味着什么呢?
大数据最佳实践:8个关键原则
事实是,“大数据的最佳实践”的概念正在演变,因为数据分析领域本身正在迅速发展。不过,企业需要与可能的最佳策略进行竞争。因此提出一些最佳实践,希望企业能够避免被大量无用数据淹没,不会淹没在数据湖中。
(1)定义大数据业务目标
IT行业有一个坏习惯,就是像Hadoop集群这样的新鲜事物容易分散人们的注意力。在企业开始利用大数据分析过程之前,了解业务需求和目标应该是企业采取的第一步,也是最重要的一步。企业用户必须明确他们想要的结果。
这是企业管理层必须率先实现,并且在技术方面必须遵循的地方。如果企业的管理层没有明确的业务目标,那么将不能收集并正确创建数据。很多组织收集了一切能够收集的数据,然后再去清除他们不需要的东西。这会造成很多不必要的工作,因此企业应该清理出所需要的信息,而不是收集全部信息。
(2)评估并与合作伙伴制定战略
大数据项目不应该由IT部门孤立完成。它必须涉及数据所有者,这将是一个业务部门,或者是一个提供大数据技术的供应商或咨询机构,这些供应商可以为组织带来外部的视角和眼光,并评估组织当前的情况。
在制定战略的过程中,应该持续进行检查,以确保企业收集所需的数据,并且会为企业提供所需的见解,就像厨师在整个烹饪过程中时刻检查自己的工作一样。而不只是收集所有内容之后再进行检查,因为如果在此期间数据出错,这意味着检查数据要一直回溯到起点,并在不必要的时候启动。
企业通过与那些从项目中获益的人一起工作,可以确保一起参与进来,从而取得成功。
(3)企业确定自己拥有什么以及在大数据中需要什么
大量的数据并不等同于良好可用的数据。企业可能会在某个地方将正确的数据混合在一起,但它会由企业自己决定。收集的随机数据越多,越是经常杂乱无章,形式各异。
同样重要的是确定企业所拥有的是其所没有的东西。一旦收集了项目所需的数据,就确定可能缺少什么,在这些工作开始之前一定要把一切都准备好。
企业并不总是能够事先知道需要什么数据字段,所以一定要确保软件的灵活性,以便在实施过程中调整。这与确定企业拥有什么以及在大数据中需要什么的理念相吻合。
其底线是企业必须测试数据并检查结果。企业可能会惊讶地发现没有得到需要的答案。在企业首先开展该项目之前,最好先找出答案。
(4)保持持续的沟通和评估
有效的协作需要利益相关者和IT部门之间的持续沟通。企业的目标可能会在项目的进行期间发生变化,如果发生这种情况,必须将变更信息传达给IT部门。企业可能需要停止收集一种形式的数据,并开始收集另一种形式的数据。企业不希望这种情况持续下去。
绘制一张清晰的地图,在某些地点打破预期或期望的结果。如果是一个为期12个月的项目,每三个月检查一次。这给了企业一个复习和改变课程的机会。
(5)如果启动缓慢,需要利用大数据快速反应
企业开展的第一个大数据项目不应该过于雄心勃勃。需要要从概念验证或试点项目开始,这样的项目规模相对较小,并且易于管理。
选择企业想改善业务流程的一个领域,但是在事情出错或错误严重的情况下它不会有太大的影响。另外,如果问题不需要解决,不要强迫采用大数据解决方案。
企业还应该使用敏捷技术和迭代方法来实现。敏捷是一种操作手段,并不局限于开发。敏捷开发是什么?例如写一小段代码,然后开始测试多种方法,然后再添加,再进行彻底测试、冲洗、重复。这是一种可以应用于任何过程的方法,而不仅仅是编程。
使用敏捷和迭代实现技术,可以根据当前需求在短时间内提供快速解决方案,而不是一次性瀑布方法。
(6)评估大数据技术要求
根据调研机构IDC公司的数据,绝大多数数据是非结构化的,可能高达90%。但是企业仍然需要查看数据来自哪里以确定最佳数据存储。企业可以选择SQL或NoSQL以及两种数据库的各种变体。
企业需要实时洞察力还是在做事后评估?可能需要Apache Spark进行实时处理,或者可以使用Hadoop(这是一个批处理过程)。还有用于分散在多个地点的数据的地理数据库,这可能是具有多个地点和数据中心的公司的要求。
另外,企业需要查看每个数据库的具体分析功能,看看它们是否适用。IBM公司收购了高性能分析设备商Netezza公司,而Teradata和Greenplum嵌入了SAS加速器,Oracle在其Exadata系统的分析中使用了R语言的特殊实现,PostgreSQL具有特殊的分析编程语法。因此,需要查看这些工具如何能够满足其需求。
(7)与云中的大数据保持一致
企业在采用云计算时必须谨慎,因为可能采用按量计费,而大数据意味着要处理大量数据。但是,云计算也有很多优点。公共云可以即时或至少非常快速地进行配置和扩展。Amazon EMR和Google BigQuery等服务允许快速建立原型。
首先是使用它来快速构建企业的环境原型。使用数据子集和亚马逊和微软等云计算提供商提供的许多工具,企业可以在几个小时内建立、开发和测试环境,并将其用于测试平台。然后,当企业制定出一个坚实的运营模式时,将其移回内部部署的数据中心进行工作。
云计算的另一个优点是企业收集的大部分数据都可能驻留在那里。在这种情况下,企业没有理由将数据转移到内部部署数据中心。许多数据库和大数据应用程序都支持来自云计算和本地的各种数据源,因此,如果企业在云中收集数据,请务必将其留在那里。
(8)管理企业的大数据人才,并一直关注合规性和访问的问题
大数据是一个新兴的领域,而不是像Python或Java编程这些可以自学成才的领域。麦肯锡全球研究院的一项研究表明,2018年全球将缺乏140至190万名拥有必要专业知识的人员,另外还缺乏基于分析结果作出决策的150万名相关管理人员和分析师。
首先必须明确的是谁应该有权访问数据,以及有多少访问权限。数据隐私是当今的一个主要问题,尤其是欧洲即将实施严格的通用数据保护条例(GDPR),这将对企业的数据使用造成严格的限制。
企业确保清除所有数据隐私问题以及谁有权访问敏感数据。企业应该关注其他治理问题,如营业额?确定哪些数据(如果有的话)可以进入公共云,哪些数据必须保留在本地部署数据中心,以及谁控制什么。
最后,虽然一些高校正在为数据科学设置和增加相关课程,但这些课程并没有标准,每个课程计划在重点和技能方面都略有不同。所以,有时企业并不需要招聘具有数据科学硕士学位的技术人员,因为他们可能不了解企业使用的工具或其所在的行业。再次,鉴于技能短缺的情况,企业可能需要做到这一点,可以在垂直行业中培训他们。