大数据(bigdata),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产!在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》[1]中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性).
[7]其次,想要系统的认知大数据,必须要面而细致的分解它,着手从三个层面来展开:一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线!在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈!第二层面是技术,技术是大数据价值体现的手段和前进的基石!在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程!
大数据智能采集
[10]阿里巴巴创办人马云来台演讲中就提到,未来的时代将不是IT时代,而是DT的时代,DT就是DataTechnology数据科技,显示大数据对于阿里巴巴集团来说举足轻重。[11]有人把数据比喻为蕴藏能量的煤矿!煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样!与此类似,大数据并不在“大”,而在于“有用”!价值含量、挖掘成本比数量更为重要!对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键.
大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作.大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据!适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB!
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分!据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%![6]大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
(3)分析所有SKU,以利润大化为目标来定价和清理库存!(4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息.(5)从大量客户中快速识别出客户!(6)使用点击流分析和数据挖掘来规避欺诈行为随着云时代的来临,大数据(Bigdata)也吸引了越来越多的关注。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和钱.
”这确实是需要警惕的。在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点!企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:(1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。(2)为成千上万的快递车辆规划实时交通路线,躲避拥堵.