大数据的出现背景最初为谷歌提出的三篇关于大数据的论文,分别是GFS论文,MapReduce论文和BigTable论文。这三篇论文奠定了
大数据发展的基础。
图片来源于如果有对这三篇论文感兴趣的同学可以去浏览一下。我们常见的大数据框架hadoop,flume,hive,kafka,hbase,pig,spark.等等这些大数据框架,所谓大数据生态系统的集群,就是由这些大数据组件组成的大数据生态系统,每一个组件都有在处理各种数据的特点以及它自己独特的优点,这些组件的出现为大数据的快速发展提供了基础。我们举例来学习hadoop组件,它由hdfs分布式文件系统和yran资源调度框架,类似于我们的cpu,起到管理资源的作用,另外一个组件是MapReduce计算框架,它是一种基于磁盘计算的计算框架,而和它功能相似的spark计算框架,是基于内存的计算框架,它的计算速度比MapReduce的计算速度快得多的多。MapReduce在编写程序的时候,我们通常把它写为三个类,分别是Driver类,Mapper类和Reduce类。这三个类里面实现的逻辑是基于MapperReduce内部的实现原理来编写和实现的。MapperReduce的实现原理,举例,当我们想要统计输入数据的相关信息时,首先进行inputsplit,即数据的分片。在一般情况下,一个分片对应一个map任务,由mapper的助理inputformar输入文件读取器,然后执行我们的map任务,然后讲map阶段得到的数据进行shuffle,即所谓的数据重新洗牌,由shuffle的助理sorter排序器进行数据的排序,最后阶段Reduce程序进行规约,由助理outputformat输出结果,实现原理很简单,知道我们在IDE环境编写相关的实现程序即可。大数据开发的基本框架是hadoop,在后续我们需要用到框架的时候,我们可以配置和安装相应的生态组件,来完成我们需要实现的任务。后续持续为大家更新大数据框架相关知识。敬请期待....
转载请注明:http://www.0431gb208.com/sjszlfa/3868.html