飞书云文档
搜索
主页
云盘
我的空间和共享空间搬到云盘了
知识库
置顶知识库
我的文档库
存储管理
回收站
三石
大数据开发面试笔记V6.0
最近修改: 8月17日 17:06
共有 0 个协作者
0
- 大数据开发面试笔记V6.0
- 一、大数据篇
- 框架原理
- HDFS
- 1. HDFS的架构 *
- 2. HDFS的读写流程 *
- 3. HDFS中,文件为什么以block块的方式存储
- 4. 小文件过多有什么危害,你知道的解决办法有哪些 *
- 5. 在NameNode HA中,会出现脑裂问题吗?怎么解决脑裂
- 6. 简述hadoop压缩和解压缩的框架
- 7. namenode的安全模式有了解吗
- 8. Secondary NameNode 了解吗,它的工作机制是怎样的
- 9. 在上传文件的时候,其中一个 DataNode 突然挂掉了怎么办 *
- 10. 在读取文件的时候,其中一个块突然损坏了怎么办 *
- 11. 介绍namenode宕机的数据恢复过程
- 12. NameNode 在启动的时候会做哪些操作
- MapReduce
- 1. 简述MapReduce整个流程 *
- 2. 手写wordcount
- 3. join原理
- 4. 文件切片相关问题
- 5. 环形缓冲区的底层实现
- 6. 全排序
- 7. MapReduce实现TopK算法
- Yarn
- 1. 简述yarn 集群的架构 *
- 2. yarn 的任务提交流程是怎样的 *
- 3. yarn的资源调度的三种模型 *
- 4. 简述Hadoop1.0 2.0 3.0区别 *
- 5. 任务的推测执行(spark ui见过)
- Zookeeper
- 1. 简述leader选举机制 *
- 2. 简述什么是CAP理论,zookeeper满足CAP的哪两个 *
- 3. zookeeper集群的节点数为什么建议奇数台 *
输入“/”快速插入
大数据开发面试笔记V6.0
大数据开发面试笔记V6.0
📍
需要1V1简历指导和模拟面试的同学,微信联系我,补差价即可
版本号 | 变更内容 | 变更时间 |
V6.0.1 | 新增大数据核心源码 | 2024/03/01 |
V6.0.2 | 新增大量面试题图解 | 2024/03/08 |
V6.0.3 | 新增算法刷题篇 | 2024/03/15 |
V6.0.4 | 新增N道Flink高频面试题 | 2024/03/22 |
V6.0.5 | 新增linux面试题以及Python面试题 | 2024/03/29 |
V6.0.7 | 新增计存调优万能吹牛模板 | 2024/04/03 |
V6.0.8 | 全文结构调整和过期题目删减 | 2024/04/04 |
一、大数据篇
框架原理
HDFS
1. HDFS的架构 *
HDFS主要包括三个部分,namenode,datanode以及secondary namenode。这里主要讲一下他们的作用:namenode主要负责存储数据的元数据信息,不存储实际的数据块,而datanode就是存储实际的数据块,secondary namenode主要是定期合并FsImage和edits文件(这里可以进行扩展,讲一下为什么有他们的存在?首先namenode存储的元数据信息是会放在内存中,因为会经常进行读写操作,放在磁盘的话效率就太低了,那么这时候就会有一个问题,如果断电了,元数据信息不就丢失了吗?所以也需要将元数据信息存在磁盘上,因此就有了用来备份元数据信息的FsImage文件,那么是不是每次更新元数据信息,都需要操作FsImage文件呢?当然不是,这样效率不就又低了吗,所以我们就引入了edits文件,用来存储对元数据的所有更新操作,并且是顺序写的方式,效率也不会太低,这样,一旦重启namenode,那么首先就会进行FsImage文件和edits文件的合并,形成最新的元数据信息。这里还会有一个问题,但是如果一直向edits文件进行写入数据,这个文件就会变得很大,那么重启的时候恢复元数据就会很卡,所以这里就有了secondary namenode在namenode启动的时候定期来进行fsimage和edits文件的合并,这样在重启的时候就会很快完成元数据的合并)
2. HDFS的读写流程 *
•
写流程:hadoop fs -put a.txt /user/sl/
◦
首先客户端会向namenode进行请求,然后namenode会检查该文件是否已经存在,如果不存在,就会允许客户端上传文件;
◦
客户端再次向namenode请求第一个block上传到哪几个datanode节点上,假设namenode返回了三个datanode节点;
评论(0)
跳转至首条评论
本文暂未被其它文档引用
本文暂未引用其它文档
2
2
2
0 字
- 上传日志
- 联系客服
- 功能更新
- 帮助中心
- 效率指南