基本信息
源码名称:尚硅谷大数据技术之Hadoop(HDFS).doc
源码大小:17.13M
文件格式:.docx
开发语言:Java
更新时间:2022-03-10
   源码介绍
尚硅谷大数据技术之Hadoop(HDFS).doc

尚硅谷大数据技术之HadoopHDFS  PAGEREF _Toc28014 \h 3

(作者尚硅谷大数据研发部)  PAGEREF _Toc11941 \h 3

版本V2.0  PAGEREF _Toc1371 \h 3

1HDFS概述  PAGEREF _Toc25 \h 3

1.1 HDFS产出背景定义  PAGEREF _Toc26990 \h 3

1.2 HDFS优缺点  PAGEREF _Toc24110 \h 3

1.3 HDFS组成架构  PAGEREF _Toc30053 \h 4

1.4 HDFS文件块大小(重点  PAGEREF _Toc30800 \h 5

2HDFSShell操作(开发重点  PAGEREF _Toc23312 \h 6

1.基本语法  PAGEREF _Toc24762 \h 6

2.命令大全  PAGEREF _Toc13482 \h 6

3常用命令实操  PAGEREF _Toc32261 \h 7

3HDFS客户端操作(开发重点  PAGEREF _Toc13984 \h 9

3.1 HDFS客户端环境准备  PAGEREF _Toc25141 \h 9

3.2 HDFSAPI操作  PAGEREF _Toc25845 \h 12

3.2.1 HDFS文件上传(测试参数优先级  PAGEREF _Toc31528 \h 12

3.2.2 HDFS文件下载  PAGEREF _Toc4198 \h 13

3.2.3 HDFS文件夹删除  PAGEREF _Toc28568 \h 13

3.2.4 HDFS文件名更改  PAGEREF _Toc16881 \h 13

3.2.5 HDFS文件详情查看  PAGEREF _Toc21771 \h 14

3.2.6 HDFS文件和文件夹判断  PAGEREF _Toc12155 \h 15

3.3 HDFSI/O流操作  PAGEREF _Toc3687 \h 15

3.3.1 HDFS文件上传  PAGEREF _Toc27290 \h 15

3.3.2 HDFS文件下载  PAGEREF _Toc24584 \h 16

3.3.3 定位文件读取  PAGEREF _Toc17115 \h 17

4HDFS的数据重点  PAGEREF _Toc28030 \h 18

4.1 HDFS写数据流程  PAGEREF _Toc24306 \h 18

4.1.1 剖析文件写入  PAGEREF _Toc13930 \h 18

4.1.2 网络拓扑-节点距离计算  PAGEREF _Toc27834 \h 19

4.1.3 机架感知(副本存储节点选择)  PAGEREF _Toc4878 \h 20

4.2 HDFS读数据流程  PAGEREF _Toc1525 \h 21

5NameNodeSecondaryNameNode(开发重点  PAGEREF _Toc30347 \h 21

5.1 NN2NN工作机制  PAGEREF _Toc6172 \h 21

1. 第一阶段:NameNode启动  PAGEREF _Toc11235 \h 22

2. 第二阶段:Secondary NameNode工作  PAGEREF _Toc20430 \h 22

5.2 FsimageEdits解析  PAGEREF _Toc11321 \h 24

1. 概念  PAGEREF _Toc19616 \h 24

2. oiv查看Fsimage文件  PAGEREF _Toc24552 \h 24

3. oev查看Edits文件  PAGEREF _Toc18507 \h 25

5.3 CheckPoint时间设置  PAGEREF _Toc26974 \h 27

5.4 NameNode故障处理  PAGEREF _Toc29852 \h 27

5.5 集群安全模式  PAGEREF _Toc20460 \h 29

1. 概述  PAGEREF _Toc11663 \h 29

2. 基本语法  PAGEREF _Toc20960 \h 29

3. 案例  PAGEREF _Toc18799 \h 29

5.6 NameNode目录配置  PAGEREF _Toc8358 \h 30

1)在hdfs-site.xml文件中增加如下内容  PAGEREF _Toc24327 \h 30

2)停止集群,删除datalogs中所有数据。  PAGEREF _Toc7879 \h 30

3)格式化集群并启动。  PAGEREF _Toc23059 \h 30

4)查看结果  PAGEREF _Toc14071 \h 30

6DataNode(开发重点  PAGEREF _Toc14495 \h 30

6.1 DataNode工作机制  PAGEREF _Toc23710 \h 30

6.2 数据完整性  PAGEREF _Toc24562 \h 31

6.3 掉线时限参数设置  PAGEREF _Toc2416 \h 32

6.4 服役新数据节点  PAGEREF _Toc11829 \h 33

0.  需求  PAGEREF _Toc26907 \h 33

1. 环境准备  PAGEREF _Toc22011 \h 33

2. 服役新节点具体步骤  PAGEREF _Toc11028 \h 33

6.5 退役旧数据节点  PAGEREF _Toc15181 \h 34

6.5.1 添加白名单  PAGEREF _Toc29698 \h 34

6.5.黑名单退役  PAGEREF _Toc1524 \h 35

6.6 Datanode目录配置  PAGEREF _Toc29535 \h 36

7HDFS 2.X新特性  PAGEREF _Toc31495 \h 36

7.1 集群间数据拷贝  PAGEREF _Toc1862 \h 36

1scp实现两个远程主机之间的文件复制  PAGEREF _Toc18 \h 36

2采用distcp命令实现两个Hadoop集群之间的递归数据复制  PAGEREF _Toc26503 \h 36

7.2 小文件存档  PAGEREF _Toc31823 \h 37

7.3 回收站  PAGEREF _Toc23153 \h 37

7.4 快照管理  PAGEREF _Toc12487 \h 39

8HDFS HA高可用  PAGEREF _Toc18689 \h 40

8.1 HA概述  PAGEREF _Toc9812 \h 40

8.2 HDFS-HA工作机制  PAGEREF _Toc30023 \h 40

8.2.1 HDFS-HA工作要点  PAGEREF _Toc2267 \h 40

8.2.2 HDFS-HA自动故障转移工作机制  PAGEREF _Toc27975 \h 41

8.3 HDFS-HA集群配置  PAGEREF _Toc16699 \h 42

8.3.1 环境准备  PAGEREF _Toc26022 \h 42

8.3.2 规划集群  PAGEREF _Toc27582 \h 42

8.3.3 配置Zookeeper集群  PAGEREF _Toc17113 \h 42

8.3.4 配置HDFS-HA集群  PAGEREF _Toc30484 \h 44

8.3.5 启动HDFS-HA集群  PAGEREF _Toc3249 \h 46

8.3.6 配置HDFS-HA自动故障转移  PAGEREF _Toc22557 \h 47

8.4 YARN-HA配置  PAGEREF _Toc10113 \h 47

8.4.1 YARN-HA工作机制  PAGEREF _Toc24845 \h 47

8.4.2 配置YARN-HA集群  PAGEREF _Toc18222 \h 48

8.5 HDFS Federation架构设计  PAGEREF _Toc32435 \h 50

1. NameNode架构的局限性  PAGEREF _Toc29660 \h 50