大数据时代最好的框架是不是hadoop,通过这几个问题来看看?

2018-01-08 13:33:16来源:http://www.duozhishidai.com/article-1517-1.html作者:多智时代人点击

分享

提到大数据,很多同学会想到Hadoop技术。大家都知道,Hadoop是Apache的一个开源项目,它是一个对大量数据进行分布式处理的软件架构,HDFS(Hadoop分布式文件系统),MapReduce、 Hbase 、Zookeeper,hive等组成了一个Hadoop生态系统。



本文主要以Hadoop为主,细谈大数据时代最好的框架是不是hadoop,通过几个问题来看看,具体如下:


一、为什么组织从传统的数据仓库工具转移到基于Hadoop生态系统的智能数据中心?

更加智能,hadoop的框架设计比传统数据仓库工具要复杂,相对来说分析处理数据的过程速度更快更好,成本来说也要低。


二、更智能&更大的数据中心架构与传统的数据仓库架构有何不同?

Hadoop是一个生态系统,拥有15多种框架和工具,如Sqoop,Flume,Kafka,Pig,Hive,Spark,Impala等,以便将数据摄入HDFS,在HDFS中转移数据(即变换,丰富,聚合等),并查询来自HDFS的数据用于商业智能和分析。某些工具(如Pig和Hive)是MapReduce上的抽象层,而Spark和Impala等其他工具则是来自MapReduce的改进架构/设计,用于显着提高的延迟以支持近实时(即NRT)和实时处理。比起传统ETL批处理更智能分析。


三、相较Spark等5种大数据框架,基于Hadoop的数据中心的好处是什么?

随着数据量和复杂性的增加,并行处理,内存密集型处理框架。基于Hadoop的解决方案不仅在商品硬件节点和开源工具方面更便宜,而且还可以通过将数据转换卸载到Hadoop工具(如Spark和Impala)来补足数据仓库解决方案,从而更高效地并行处理大数据。这也将释放数据仓库资源。更好的灵活性。通常业务需求的改变,也需要对架构和报告进行更改。基于Hadoop的解决方案不仅可以灵活地处理不断发展的模式,还可以处理来自不同来源,如社交媒体,应用程序日志文件,image,PDF和文档文件的半结构化和非结构化数据。甚者这里面有些数据通常在数据仓库中不可得。


最新文章

123

最新摄影

闪念基因

微信扫一扫

第七城市微信公众平台