Hadoop是一个能够对大量数据进行分布式处理的软件框架, Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。hadoop的集群是基于master/slave模式
运行在master上的:NameNode Secondary NameNode JobTracker
运行在slave上的:DataNode TaskTracker
1、NameNode是HDFS的守护程序,负责记录文件是如何分割成数据块的,以及这些数据块分别被存到那些数据节点上,只要功能是对内存及I/O进行集中管理(是个单点,发生故障将使集群崩溃)
2、DataNode这个后台程序负责把HDFS数据块读写到本地的文件系统,当客户端要读写某个数据时候,先由NameNode告诉客户端去哪个DataNode进行具体的读/写操作,然后客户端直接与这个DataNode服务器上的后台程序进行通讯,并且对相关的数据块进行读/写操作。
3、SecondaryNameNode:是一个用来监控HDFS状态的辅助后台程序,就像NameNode一样,每个集群都有一个Secondary NameNode,不接收或记录任何任何实时的数据变化,但是,他会与NameNode进行通信,以便定期的保存HDFS元数据的快照,如果Name发生问题,SecondaryNameNode可以及时的作为备用NameNode。
4、JobTracker:用来连接应用程序与Hadoop,用户代码提交到集群以后,由JobTracker决定那个文件将被处理,并且为不同的task分配节点,同时,他还监控所有运行的task一旦某个task失败了JobTacker就会自动重新开启task。每个集群只有唯一一个JobTracker,位于Master节点
5、TaskTracker:与负责存储的DataNode结合,JobTracker负责分配Tasker,管理各自节点上的task。每个节点只有一个TaskTracker,但一个TaskTracker可以启动多个JVM,用于并行执行map或reduce任务
本文链接:快速了解Hadoop架构,本文由领悟书生原创,转载请注明出处http://www.656463.com/article/376
相关推荐
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。本文集的文档主要介绍Hadoop的一些概念介绍和操作教程,...
Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据...
·如何整合MapReduce和R前言 致谢关于本书 第1 部分 背景和基本原理1 跳跃中的Hadoop1.1 什么是Hadoop 1.1.1 Hadoop 的核心组件1.1.2 Hadoop 生态圈1.1.3 物理架构1.1.4 谁在使用Hadoop1.1.5 ...
在每个模块的最后,会有一到两个企业案例,对这些企业案例的介绍只限于部分介绍,主要还是使用当前模块的技术来解决其中的一到两个问题,这样读者不仅对技术的原理、架构有了较深入的了解,同时,对于如何应用该技术...
竞赛准备:适用于各种教育部认可的竞赛,如全国电子设计大赛、全国大学生智能汽车竞赛等,他们可以借助这些资料了解竞赛的规则、要求和技巧。 学习与项目开发:可以用作毕设、课设、作业和竞赛项目的开发基础,可以...
hadoop-hdfs快速入门 内容概要:HDFS是Apache Hadoop中的分布式文件系统,用于处理大规模数据集。它通过数据局部性原理减少网络传输,提高了系统效率;同时提供数据备份和自我修复机制,确保数据...2.hdfs基础架构了解
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储
了解不同课题的知识内容,学习内部架构和原理,掌握有关课题重要资源, 同时增加自己对不同方面知识的了解,为后续的创作提供一定的设计思路和设计启发 , 并且可以快速完成相关题目设计,节约大量时间精力,也为...
1 跳跃中的Hadoop 1.1 什么是Hadoop 1.1.1 Hadoop 的核心组件 1.1.2 Hadoop 生态圈 1.1.3 物理架构 1.1.4 谁在使用Hadoop 1.1.5 Hadoop 的局限性 1.2 运行Hadoop 1.2.1 下载并安装Hadoop ...
Samza是一款优秀的分布式流处理框架,非常像Twitter的流处理系统Storm(即Lambda架构Hadoop+Storm)。不同的是Samza基于Hadoop,而且使用了LinkedIn自家的Kafka分布式消息系统(即Kappa架构Kafka+Samza)。其优势...
一、源码特点1、简单易用:(1)部署实施简单整个框架是基于.NET Framework2.0开发,绿色不需要任何安装和复杂配置,相对与Hadoop简直可以用轻松来形容,可以让任何一个程序员或者IT短时间内快速搭建起属于自己的并行...
本模块通过学习HDFS,YARN(MapReduce)Spark 等核 ⼼组件,了解Hadoop 的基本运⾏框架。 所以在第⼆部分的学习中我们需要达到以下⽬标: 1、 搭建单节点模拟分布式集群,熟悉 HDFS 命令; 掌握 HDFS 体系结 构,读写...
Hadoop是⼀个由Apache基⾦会所开发的分布式系统基础架构。⽤户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利⽤ 集群的威⼒进⾏⾼速运算和存储。Hadoop实现了⼀个分布式⽂件系统(Hadoop Distributed...
聚集这些数据对系统发展规划以及了解用户如何使用我们的系统是非常有帮助的,并且,这些记录对系统故障排查也有好处。 假如一封邮件发送失败或用户无法登陆系统,这时非常重要的事是让我们的客服能找到足够的问题...
该演示还使用IBM Message Hub(kafka)将应用程序事件推送到主题,在IBM BigInsights(hadoop)上运行的Spark Streaming作业将其消费。 快速开始 如果您想尝试该Web应用程序的实时演示,请访问。 这也是的概述视频...
数据存储之后,该如何通过运算快速转化成⼀致的格式,该如何快速运算出⾃⼰想要的结果? 对应的MapReduce这样的分布式运算框架解决了这个问题;但是写MapReduce需要Java代码量很⼤,所以出现了Hive,Pig等将SQL转 ...
Darwin是基于Hadoop企业级应用支撑平台,通过组件化、可视化的方式,帮助用户快速实现大数据的汇,存、查、交换,分析挖掘和管理。 欢迎访问优酷视频 - 优酷有广告 欢迎访问百度云视频 - 无广告 目标 Darwin的目标...
DistCp命令是hadoop用户最常使用的命令之一,它位于hadooptools包中,代码不多,约1300多行,主要用于在两个HDFS集群之间快速拷贝数据。DistCp工具代码结构清晰易懂,通过分析该工具的代码 引言 DistCp命令是...
产品架构 SDC 企业级一站式大数据基础平台 大数据领域 --- 存储计算为核心的基础平台 组件融合 Hadoop+Spark生态组件融合; MPP+Hadoop混合框架; 国内组件支持最多,最丰富。 统一存储 数据收集及整合萃取能力 ...