请留下您的邮箱,我们将在2小时内将文件发到您的邮箱
尚硅谷大数据技术之Hadoop(HDFS).doc
尚硅谷大数据技术之Hadoop(HDFS) PAGEREF _Toc28014 \h 3
(作者:尚硅谷大数据研发部) PAGEREF _Toc11941 \h 3
第1章 HDFS概述 PAGEREF _Toc25 \h 3
1.1 HDFS产出背景及定义 PAGEREF _Toc26990 \h 3
1.2 HDFS优缺点 PAGEREF _Toc24110 \h 3
1.3 HDFS组成架构 PAGEREF _Toc30053 \h 4
1.4 HDFS文件块大小(重点) PAGEREF _Toc30800 \h 5
第2章 HDFS的Shell操作(开发重点) PAGEREF _Toc23312 \h 6
3.常用命令实操 PAGEREF _Toc32261 \h 7
第3章 HDFS客户端操作(开发重点) PAGEREF _Toc13984 \h 9
3.1 HDFS客户端环境准备 PAGEREF _Toc25141 \h 9
3.2 HDFS的API操作 PAGEREF _Toc25845 \h 12
3.2.1 HDFS文件上传(测试参数优先级) PAGEREF _Toc31528 \h 12
3.2.2 HDFS文件下载 PAGEREF _Toc4198 \h 13
3.2.3 HDFS文件夹删除 PAGEREF _Toc28568 \h 13
3.2.4 HDFS文件名更改 PAGEREF _Toc16881 \h 13
3.2.5 HDFS文件详情查看 PAGEREF _Toc21771 \h 14
3.2.6 HDFS文件和文件夹判断 PAGEREF _Toc12155 \h 15
3.3 HDFS的I/O流操作 PAGEREF _Toc3687 \h 15
3.3.1 HDFS文件上传 PAGEREF _Toc27290 \h 15
3.3.2 HDFS文件下载 PAGEREF _Toc24584 \h 16
3.3.3 定位文件读取 PAGEREF _Toc17115 \h 17
第4章 HDFS的数据流(重点) PAGEREF _Toc28030 \h 18
4.1 HDFS写数据流程 PAGEREF _Toc24306 \h 18
4.1.1 剖析文件写入 PAGEREF _Toc13930 \h 18
4.1.2 网络拓扑-节点距离计算 PAGEREF _Toc27834 \h 19
4.1.3 机架感知(副本存储节点选择) PAGEREF _Toc4878 \h 20
4.2 HDFS读数据流程 PAGEREF _Toc1525 \h 21
第5章 NameNode和SecondaryNameNode(开发重点) PAGEREF _Toc30347 \h 21
5.1 NN和2NN工作机制 PAGEREF _Toc6172 \h 21
1. 第一阶段:NameNode启动 PAGEREF _Toc11235 \h 22
2. 第二阶段:Secondary NameNode工作 PAGEREF _Toc20430 \h 22
5.2 Fsimage和Edits解析 PAGEREF _Toc11321 \h 24
2. oiv查看Fsimage文件 PAGEREF _Toc24552 \h 24
3. oev查看Edits文件 PAGEREF _Toc18507 \h 25
5.3 CheckPoint时间设置 PAGEREF _Toc26974 \h 27
5.4 NameNode故障处理 PAGEREF _Toc29852 \h 27
5.5 集群安全模式 PAGEREF _Toc20460 \h 29
2. 基本语法 PAGEREF _Toc20960 \h 29
5.6 NameNode多目录配置 PAGEREF _Toc8358 \h 30
(1)在hdfs-site.xml文件中增加如下内容 PAGEREF _Toc24327 \h 30
(2)停止集群,删除data和logs中所有数据。 PAGEREF _Toc7879 \h 30
(3)格式化集群并启动。 PAGEREF _Toc23059 \h 30
(4)查看结果 PAGEREF _Toc14071 \h 30
第6章 DataNode(开发重点) PAGEREF _Toc14495 \h 30
6.1 DataNode工作机制 PAGEREF _Toc23710 \h 30
6.2 数据完整性 PAGEREF _Toc24562 \h 31
6.3 掉线时限参数设置 PAGEREF _Toc2416 \h 32
6.4 服役新数据节点 PAGEREF _Toc11829 \h 33
1. 环境准备 PAGEREF _Toc22011 \h 33
2. 服役新节点具体步骤 PAGEREF _Toc11028 \h 33
6.5 退役旧数据节点 PAGEREF _Toc15181 \h 34
6.5.1 添加白名单 PAGEREF _Toc29698 \h 34
6.5.2 黑名单退役 PAGEREF _Toc1524 \h 35
6.6 Datanode多目录配置 PAGEREF _Toc29535 \h 36
第7章 HDFS 2.X新特性 PAGEREF _Toc31495 \h 36
7.1 集群间数据拷贝 PAGEREF _Toc1862 \h 36
1.scp实现两个远程主机之间的文件复制 PAGEREF _Toc18 \h 36
2.采用distcp命令实现两个Hadoop集群之间的递归数据复制 PAGEREF _Toc26503 \h 36
7.2 小文件存档 PAGEREF _Toc31823 \h 37
7.3 回收站 PAGEREF _Toc23153 \h 37
7.4 快照管理 PAGEREF _Toc12487 \h 39
第8章 HDFS HA高可用 PAGEREF _Toc18689 \h 40
8.1 HA概述 PAGEREF _Toc9812 \h 40
8.2 HDFS-HA工作机制 PAGEREF _Toc30023 \h 40
8.2.1 HDFS-HA工作要点 PAGEREF _Toc2267 \h 40
8.2.2 HDFS-HA自动故障转移工作机制 PAGEREF _Toc27975 \h 41
8.3 HDFS-HA集群配置 PAGEREF _Toc16699 \h 42
8.3.1 环境准备 PAGEREF _Toc26022 \h 42
8.3.2 规划集群 PAGEREF _Toc27582 \h 42
8.3.3 配置Zookeeper集群 PAGEREF _Toc17113 \h 42
8.3.4 配置HDFS-HA集群 PAGEREF _Toc30484 \h 44
8.3.5 启动HDFS-HA集群 PAGEREF _Toc3249 \h 46
8.3.6 配置HDFS-HA自动故障转移 PAGEREF _Toc22557 \h 47
8.4 YARN-HA配置 PAGEREF _Toc10113 \h 47
8.4.1 YARN-HA工作机制 PAGEREF _Toc24845 \h 47
8.4.2 配置YARN-HA集群 PAGEREF _Toc18222 \h 48