请选择 进入手机版 | 继续访问电脑版
专注物联网产业服务
微信二维码
威腾网服务号
游客您好
第三方账号登陆
  • 点击联系客服

    在线时间:8:00-16:00

    客服电话

    17600611919

    电子邮件

    online@weiot.net
  • 威腾网服务号

    随时掌握企业动态

  • 扫描二维码

    关注威腾小程序

兀霜史 论坛元老
未知星球 | 未知职业
  • 关注0
  • 粉丝0
  • 帖子1371
热议话题
精选帖子

大数据开辟:HDFS Namenode元数据治理

[复制链接]
 楼主| 兀霜史 发表于 2021-10-24 04:34:30 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
HDFS作为散布式文件系统的代表性产物,在大数据进修傍边的重要性是不言而喻的,基于Hadoop根本架构,HDFS更是获得了普遍的认可,在大范围离线数据处置上,供给安定的底层支持。明天的大数据开辟技术分享,我们就首要来说讲HDFS Namenode元数据治理。





Namenode元数据治理
首先明白Namenode的职责:响应客户端请求、治理元数据。
Namenode对元数占有三种存储方式:

    内存元数据(NameSystem)磁盘元数据镜像文件数据操纵日志文件(可经过日志运算出元数据)


留意:HDFS不合适存储小文件的缘由,每个文件城市发生元信息,当小文件多了以后元信息也就多了,对Namenode会形成压力。
对三种存储机制的进一步诠释
内存元数据就是当前Namenode正在利用的元数据,是存储在内存中的。
磁盘元数据镜像文件是内存元数据的镜像,保存在Namenode工作目录中,它是一个准元数据,感化是在Namenode宕机时可以快速较正确的规复元数据,称为fsimage。
数据操纵日志文件是用来记录元数据操纵的,在每次修改元数据时城市追加日志记录,倘使有完整的日志便可以复原完整的元数据。首要感化是用来完善fsimage,削减fsimage和内存元数据的差异,称为editslog。





Checkpoint机制分析
由于Namenode自己的使命就很是重要,为了不再给Namenode压力,日志合并到fsimage就引入了另一个脚色secondaryNamenode。secondaryNamenode负责定期把editslog合并到fsimage,“定期”是Namenode向secondaryNamenode发送RPC请求的,是按时候大概日志记录条数为“间隔”的,这样即不会浪费合并操纵又不会形成fsimage和内存元数占有很大的差异。由于元数据的改变频次是不牢固的。
每隔一段时候,会由secondary Namenode将Namenode上堆集的一切edits和一个最新的fsimage下载到当地,并加载到内存停止merge(这个进程称为checkpoint)。
1)Namenode向secondaryNamenode发送RPC请求,请求合并editslog到fsimage。
2)secondaryNamenode收到请求后从Namenode上读取(经过http办事)editslog(多个,转动日志文件)和fsimage文件。
3)secondaryNamenode会按照拿到的editslog合并到fsimage。构成最新的fsimage文件。(中心有很多步调,把文件加载到内存,复原成元数据结构,合并,再天生文件,新天生的文件名为fsimage.checkpoint)。
4)secondaryNamenode经过http办事把fsimage.checkpoint文件上传到Namenode,而且经过RPC挪用把文件更名为fsimage。
Namenode和secondary Namenode的工作目录存储结构完全不异,所以,当Namenode故障退出需要重新规复时,可以从secondary Namenode的工作目录中将fsimage拷贝到Namenode的工作目录,以规复Namenode的元数据。





关于checkpoint操纵的设置:
dfs.Namenode.checkpoint.check.period=60#检查触发条件能否满足的频次,60秒
dfs.Namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary
#以上两个参数做checkpoint操纵时,secondary Namenode的当地工作目录
dfs.Namenode.checkpoint.edits.dir=${dfs.Namenode.checkpoint.dir}
dfs.Namenode.checkpoint.max-retries=3#最大重试次数
dfs.Namenode.checkpoint.period=3600#两次checkpoint之间的时候间隔3600秒
dfs.Namenode.checkpoint.txns=1000000#两次checkpoint之间最大的操纵记录
editslog和fsimage文件存储在$dfs.Namenode.name.dir/current目录下,这个目录可以在hdfs-site.xml中设置的。
关于大数据开辟,HDFS Namenode元数据治理,以上就为大师做了简单的先容了。HDFS傍边的元数据治理,是散布式存储的重要保障,对于数据存储平安性和牢靠性都有明显的进献。

        原文章作者:加米谷大数据张衡,转载或内容合作请点击 转载说明 ,违规转载法令必究。追求报道,请 点击这里
Weiot(威腾网)是一家以原创内容、高端活动与全产业渠道为核心的垂直类物联网产业媒体。
回复

使用道具 举报

Weiot(威腾网)是一家以原创内容、高端活动与全产业渠道为核心的垂直类物联网产业媒体。我们关注新兴创新的物联网领域,提供有价值的报道和服务,连接物联网创业者和各种渠道资源,助力物联网产业化升级。
15201069869
关注我们
  • 访问移动手机版
  • 官方微信公众号

© 2014-2020 Weiot.NET 威腾网 北京微物联信息技术有限公司 ( 京ICP备20000381号-1 )