导语

大数据,有点像前几年的云计算,被人们像概念一样炒作。有关、无关或者沾一点边的厂商都恨不得把它挂在嘴边,当然也有人可能是因为利益的原因想办法来“诋毁”它。从狭义的角度来讲,大数据的目的是为了在海量的结构化、非结构化数据中挖掘商业价值...

卷首语

大数据,有点像前几年的云计算,被人们像概念一样炒作。有关、无关或者沾一点边的厂商都恨不得把它挂在嘴边,当然也有人可能是因为利益的原因想办法来“诋毁”它。从狭义的角度来讲,大数据的目的是为了在海量的结构化、非结构化数据中挖掘商业价值。那么,相对出现更早的MPP数据仓库可以说是它的前身,而Hadoop作为更大规模分布式计算和存储离线处理集群的代表,在今年更是红透了半边天。

我们认同2013年大数据方面的投资会有增加,但应该不是在某一天就突然爆发,也不会一下就彻底改变原来的业务模式。用户在听厂商们“忽悠”的同时,也会冷静下来思考自己的实际情况和可能带来的价值。以达到一定规模的互联网行业用户为代表,基于Hadoop自行开发;还有商业发行版这两条路线仍将并存发展;而NoSQL等其它适合OLAP的工具也能从这个市场分得一杯羹。

存储

 

严格的说,大数据更多相关的是软件与服务方面,是传统业务模式上的改变。那么,大数据对企业存储的影响在哪些地方呢?一方面是管理数据复制的爆炸性增长:通过减少对于无变化数据的备份和复制需要,良好的归档策略和对象存储将有助于解决这一问题。 尽管最近专用(磁盘)备份设备的市场表现不太好,但这并意味着重复数据删除技术的应用有所减少。尽管惠普在完善他们的StoreOnce产品组合,赛门铁克等也在转型发展软件+硬件的备份一体机,但严格说该领域还没有哪家能给EMC带来实质上的竞争,源端重复数据删除应用也没有真正普及。

 

再有就是磁盘和磁带存储介质容量的增长。首先,单个企业级近线硬盘达到4TB,传统RAID 5/6由于Rebuild时间过长已经有些不太适用。无论是擦除编码还是分簇RAID,又指向了对象存储或者带有对象特征的文件系统。磁带在容量价格比方面与磁盘已经没有什么优势,性能就不用说了,只剩下能耗和便于运输,LTFS的应用能够延长其生命却无法阻止它的下滑。

服务器/一体机

 

大数据作为未来IT发展的主力方向之一,在2012年得到了前所未有的发展和重视。而大数据作为数据的一种类型,终归还是要依托于硬件进行计算和处理的。而目前业界对于使用何种硬件来快速有效的处理大数据仍然没有定论。在这种情况下,一体机、微服务器、内存计算等类型的产品都可能在未来大数据的处理中占据一席之地。

 

一体机作为传统服务器的扩展和延伸,是目前大数据处理方面的主流选择。通过将相关的计算、存储和网络设备无缝集合在一起,并且将功能做出单一的限定,一体机通常能够在单一性能上爆发出强大的实力。但一体机也并非完美无缺,标准的相对混乱、高昂的价格以及差强人意的扩展性和灵活性都是阻碍一体机进一步发展和占领市场的最大障碍。

 

内存计算同样是目前业界处理海量数据比较认可的方式之一。通过在普通服务器内部安装海量内存,服务器在IO方面的性能得到了质的飞跃,通过相关软件的配合,普通服务器也可以承担大数据所带来的巨大压力。但内存计算技术目前仍掌握在少数一两家厂商的手中,而且标准和兼容性问题仍然令人堪忧。大数据究竟能否花落内存计算,现在仍未可知。

 

微服务器可以说是未来服务器行业发展的潜力股。通过将海量的低功耗服务器集成在一个机箱内,微服务器可以通过分布式计算来弥补单个处理器在性能上的不足。同时,低廉的价格、更低的功耗以及强大的扩展能力都使其成为目前业界最炙手可热的研发领域。但同时,我们也要澄清,微服务器目前无论从产品成熟度还是相关软件和算法的丰富程度来看都还不具备普及的条件,因此,微服务器想要挑起大数据的担子仍需时日。

软件

 

大数据是2012年最热的词汇之一,随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富。更多的传感设备、移动终端接入到网络,由此产生的数据及增长速度将比历史上的任何时期都要多,都要快,"大数据"时代不容忽视,未来将是"大数据"引领的智慧科技的时代,也对众多行业企业和IT公司带来前所未有的挑战和机遇,大数据时代将促使企业的基础IT架构、数据处理、应用软件的开发和管理模式等领域产生新的变革。

 

在2012年IBM IOD大会中明确了大数据平台架构。架构分为四个部分,最底层是大数据的基础架构,其上是大数据平台,然后是信息的分析和管理软件,最后是各个行业的解决方案,包括金融、电信、政府等行业。作为IT行业的领头人,IBM为大数据时代的道路铺平垫稳,软件领域多数软件商也都到了大数据的必然性,结合自身产品特点迎合大数据的趋势,在2013想必大数据热闹拼起,为之期待。

网络

 

根据思科的相关报告指出,未来五年内数据中心内部的流量仍将占主导地位。绝大部分数据中心流量并非由最终用户生成,而是由数据中心和云计算工作负载产生。个人用户通常不会察觉到使用这些工作负载的活动。从2011年到2016年间,思科预测约有76%的数据中心流量将位于数据中心内,并主要由存储、生产和开发数据产生。另有7%的数据中心流量将在数据中心之间产生,主要由数据复制和软件/系统更新等活动生成。剩余17%的数据中心流量将由最终用户在访问云来浏览网页、收发电子邮件和观看视频流的过程中产生。

 

而如何去快速处理数据中心内部的流量,仍将是企业最为关心的话题。随着数据中心进一步实施各种抽象层技术,很多的企业都选择重新考虑如何设计他们的数据中心并迁移到扁平化的简单网络中,这种网络相比过去而言能够支持更多不同的流量模式。

安全

 

过去,谈到数据安全,通常采购一个防火墙就能基本实现。2012年我们看到,大数据已经广泛应用于各个行业,随着大数据的深入应用,数据安全准则也将随之发生改变。“大数据”是虚拟技术、云计算和数据中心三者使用率增加后的逻辑衍生物,虽然它是一个可有效使用数据的平台,但也存在严重的安全和合规性问题,包括:大量的敏感数据分布在大量节点上;很少控件和审查机制;目前的工具和数据存取方法较为粗糙与粗暴。对企业而言,安全隐患是部署的重要障碍,而在过去10年,数据库活动监测技术实际解决的也是安全方面的隐患。将所有的数据都存储在同一个地方,固然会使得保护数据变得更简单,但这也方便了黑客,使其目标变得更有诱惑力。

 

2012年,我们已逐步进入大数据时代,数据量非线性增长,而绝大多数企业都没有专门的工具或流程来应对这种非线性增长。数据量的不断增长,也让传统安全工具已经不再像以前那么有效。大数据应用带来了新的安全需求,一些厂商已经开始意识到由此带来的发展机遇。如,IBM Guardium将其在数据库安全领域的优势进一步延伸,率先为用户提供了针对大数据的安全保护方案。

 

IT大变局