Hadoop中的MapReduce是什么

小编给大家分享一下Hadoop中的MapReduce是什么,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!

创新互联专业提供绵阳服务器托管服务,为用户提供五星数据中心、电信、双线接入解决方案,用户可自行在线购买绵阳服务器托管服务,并享受7*24小时金牌售后服务。

        在MapReduce中,它也是主从结构,主节点:JobTracker,从节点:TaskTracker。主节点只有一个从节点有很多个,主节点在主机上,从节点分布到其他机器上。

        JobTracker

                    作用:

                            1、负责接收用户提交的作业;

                            2、负责把计算任务分给TaskTracker执行;

                            3、监控TaskTracker的执行情况;

        TaskTracker:

                    作用:

                            1、执行JobTracker分配的计算任务;

            JobClient

                   概念:是用户作业与JobTracker交互的主要接口。

                     作用:

                            1、负责提交作业,负责启动;

                            2、跟踪任务执行;

                            3、访问任务状态和日志等;

Hadoop中基于RPC的通信协议

                    1、JobSubmissionProtocol:是JobClient与JobTracker通信的接口。

                                执行过程:TaskTracker每隔一段时间向JobTracker发送hearbeat(心跳机制)提交当前TaskTracker所在机

                                器的内存,CPU,磁盘等状态信息,是否可以接收新任务等信息;JobTracker接收到hearbeat

                                给TaskTracker返回需要所做的job或task操作,是否开启新的任务。TaskTracker可以从取

                                得JobTracker取得当前文件系统路径,需要执行Job的Jar文件路径等.

                           2、InterTrackerProtocol:是TaskTracker与JobTracker通信的接口。

                                作用:主要用来提交,执行Job和取得当前Job状态;JobClient可以通过此协议提交Job(submitJob),

                                          取得当前Job的参数,状态,Counter,Task状态,文件系统路径,jar文件路径,所有Job的状

                                          态,还有Job队列的信息,此外JobClient还可以提交KillJob和设定Job优先级等任务到                                                          JobTracker。

MapReduce中驱动默认设置

InputFormat

TextInputFormat

MapperClass

IdentityMapper

MapOutputKeyClass

LongWritable

MapOutputValueClass

Text

PartitionerClass

HashPartitioner

ReduceClass

IdentityReduce

OutputKeyClass

LongWritable

OutputValueClass

Text

OutputFormatClass

TextOutputFormat

MapReduce中常见的算法

                                1、单词计数

                                2、数据去重

                                3、排序

                                4、Top k

                                5、选择

                                6、投影

                                7、分组

                                8、多表连接

                                9、单表关联

MapReduce原理

                        Hadoop中的MapReduce是什么

MapReduce为什么能实现失败检测?

                    正是由于采用了无共享框架,所有MapReduce才能够实现失败检测,这也意味着各个任务之间彼此独立。

MapReduce作业

                    MapReduce作业(Job)是客户端需要执行的一个工作单元:它包括输入数据,MapReduce程序和配置信息等。

                    注意:在MapReduce中不能处理文件名以_(下划线)开头的文件.

以上是“Hadoop中的MapReduce是什么”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注创新互联行业资讯频道!


网站标题:Hadoop中的MapReduce是什么
网站链接:http://cdiso.cn/article/gcogec.html

其他资讯