Hadoop

大数据

发布日期: 2020-07-29

作者: 文超

文章字数: 540

阅读时长: 1 分

阅读次数:

之前学过一段时间，好久没用，已经忘得干干净净了。现在只能重新开始，整理学习了~

Hadoop简介

HDFS架构概述

NameNode（nn）：存储文件元数据，以及每个文件的块列表和所在的DataNode等（方便找数据的索引）
DataNode（dn）：在本地文件系统存储文件块数据，以及数据的校验和（存数据）
Secondary NameNode（2nn）：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照（并不完全是NameNode的备份，当nn挂了，它只能辅助恢复，并不能完全替代，就像是主治医生和递手术刀的）

调度CPU算力和内存资源

（1）处理客户端请求（所有请求都会先发给它——作业提交）
（2）监控NodeManager
（3）启动或监控ApplicationMaster
（4）资源分配与调度

（1）管理单个节点上的资源
（2）处理来自RM的命令
（3）处理来自ApplicationMaster的命令

（1）负责数据切分
（2）为应用程序申请资源并分配给内部任务
（3）任务监控与容错

YARN中资源抽象，封装了某个节点上的多维度资源，如：内存、CPU、磁盘、网络

MapReduce将计算过程分为两个阶段：Map（分）和Reduce（汇总）

HBase：类似于大表格
Hive、Mahout…：计算引擎（MapReduce）的包装（类似于mabatis是mysql的包装）
Kafka是在线计算（流式计算，无穷尽）：评价标准是实时处理速度（口径）；其他为离线计算

Storm是纯流式计算——来一点处理一点（口径小）
Spark不是纯流式处理，先存一部分，然后处理（Flink与其类似）

Zookeeper：协调各个框架之间关系

接下来要做的是，hadoop基本环境搭建（虚拟机、jdk以及hadoop安装）

一切都要顺顺利利呀~

转载规则

《Hadoop简介（系列一）》由文超采用知识共享署名 4.0 国际许可协议进行许可。

Hadoop基本环境搭建

2020-07-30 大数据

Hadoop

bootstrap富文本编辑器summernote使用

2020-05-17 前端

前端