当前位置：网站首页 > 技术文章 > 正文

搭建大数据运行环境之二（大数据环境搭建步骤）

wxin55 2024-11-11 14:40 9 浏览 0 评论

前言

上篇文章咱们将大数据相关的一些组件都集成安装在了一个docker中

搭建大数据运行环境之一

这篇文章咱们继续启动下该docker中的大数据相关的组件

将大数据运行环境跑起来

上篇文章的几个注意点再重申下

安装包应用编译之后的包

组件的安装包不要用源码包
因为源码包还需要编译打包
编译的话 还需要在docker中安装编译环境

比如

# 不要下载源码包 hadoop-2.10.1-src.tar.gz 而应该下载编译之后的包 hadoop-2.10.1.tar.gz
#HADOOP_URL=https://downloads.apache.org/hadoop/common/stable2/hadoop-2.10.1.tar.gz

# 北京理工大学开源软件镜像mirror.bit.edu.cn
HADOOP_URL=http://mirror.bit.edu.cn/apache/hadoop/common/stable2/hadoop-2.10.1.tar.gz

本地编译dokcer镜像然后上传到阿里镜像库然后其他地方使用

# 登陆阿里镜像库
docker login --username=孟凡霄 --password mfx@123456 registry.cn-hangzhou.aliyuncs.com

# 生成镜像
# ${dir}/hadoop 该目录指向Dockerfile文件
docker build --network host -t hadoop:v1.0 ${dir}/hadoop

# 镜像文件重命名
docker tag hadoop:v1.0 registry.cn-shanghai.aliyuncs.com/mengfanxiao/hadoop:v1.0

# 将镜像文件上传到阿里镜像库
docker push registry.cn-shanghai.aliyuncs.com/mengfanxiao/hadoop:v1.0

镜像生成好之后分别在3台服务器上下载镜像然后通过脚本启动镜像

# 下载镜像
docker pull registry.cn-shanghai.aliyuncs.com/mengfanxiao/hadoop:v1.0
# 启动镜像脚本
cd /opt/bigdata/docker-hadoop-test
chmod 777 hadoop.sh
./hadoop.sh

该镜像脚本做的事情就是 运行docker
通过docker run命令

说明镜像已经起来
接下来要做的事情就是进入镜像内部 分别启动各个组件

启动hadoop集群

先通过流程图来梳理一下启动的步骤

架构图

两个NameNode为了数据同步，会通过一组称作JournalNodes的独立进程进行相互通信

当active状态的NameNode的命名空间有任何修改时 会告知大部分的JournalNodes进程

standby状态的NameNode有能力读取JNs中的变更信息，并且一直监控edit log的变化，把变化应用于自己的命名空间

standby可以确保在集群出错时，命名空间状态已经完全同步了

namenode宕机了 可以手工或者自动切换

在hadoop1启动所有JournalNode

cd /usr/local/hadoop/sbin
chmod 777 hadoop-daemons.sh
hadoop-daemons.sh start journalnode

多个NameNode之间共享数据方式

Nnetwork File Syste

通过linux共享的文件系统，属于操作系统的配置

Quorum Journal Node

hadoop自身的东西，属于软件的配置

手工或者自动切换到另一个NameNode提供服务

在hadoop1上格式化namenode数据

cd /usr/local/hadoop/bin
hdfs namenode -format

在hadoop1上启动namenode

cd /usr/local/hadoop/sbin
hadoop-daemon.sh start namenode

在hadoop2 上执行同步namenode元数据

是双机集群系统简称 提高可用性集群
是保证业务连续性的有效解决方案
一般有两个或两个以上的节点
且分为活动节点及备用节点

在hadoop2上启动namenode

cd /usr/local/hadoop/sbin
hadoop-daemon.sh start namenode

在hadoop1上初始化zkfc

stop-dfs.sh

至此hadoop2.x hdfs完全分布式 HA 搭建完毕

cd /usr/local/hadoop/sbin
start-all.sh

在hadoop1上停止业务

cd /usr/local/hadoop/sbin
start-all.sh

在hadoop1上全面启动业务

cd /usr/local/hadoop/sbin
start-all.sh

#启动了 2个namenode hadoop001,hadoop002
Starting namenodes on [hadoop001 hadoop002]

#启动了3个datanode hadoop001,hadoop002,hadoop003

#启动了3个journal nodes
Starting journal nodes [hadoop001 hadoop002 hadoop003]

#启动了ZK Failover Controllers 在hadoop001,hadoop002
Starting ZK Failover Controllers on NN hosts [hadoop001 hadoop002]

#启动了3个节点 hadoop001,hadoop002,hadoop003
starting resourcemanager(nodemanager)

科普一下hadoop这几个节点的作用

Namenode

目录管理者
每个集群都有一个 记录实时的数据变化
如果没有它 hdfs无法工作
系统中的文件将全部丢失
就无法将位于不同datanode上的文件块（blocks）重建文件
因此它的容错机制很有必要

负责

接受用户请求
维护文件系统的目录结构
管理文件与block之间的联系

Datanode

文件系统的工作节点
根据客户端或namenode的调度存储和检索
并定期向namenode发送它们所存储的块的列表

集群中的每个服务器都运行着一个datanode后台程序
这个datanode后台程序负责把数据块读写到本地的文件系统

负责

存放数据
文件被分割以block的形式被存储在磁盘上

Secondarynode

用来监控hdfs状态的后台辅助程序
就向namenode一样 每个集群都有一个
并且部署在一个单独的服务器上

不接受或记录任何实时的数据变化
与namenode通信 以定期保存hdfs元数据快照

存在的意义

1、由于namenode是单点
通过SecondaryNameNode的快照功能
可以将namenode宕机时间和数据损失降低到最小

2、若namenode出现问题 Secondarynode可以作为备用节点

3、主要将namenode image（fsimage）和Edit log定期合并

fsimage

包含hadoop系统所有目录(修改时间、访问控制权限)和
文件（修改时间、访问时间、块大小、组成一个文件块信息）idnode的序列化信息

Edit log

客户端对文件操作的记录 比如上传新文件

客户端执行写操作

周期性合并Edit log

Resourcemanager

与客户端进行交互

处理来自于客户端的请求
如查询应用的运行情况等

管理各个应用的ApplicationMaster

为ApplicationMaster申请第一个Container用于启动和
在它运行失败时将它重新启动

管理NodeManager

接收来自NodeManager的资源和节点健康情况汇报
并向NodeManager下达管理资源命令
例如kill掉某个container

资源管理和调度

最重要的职能:

接收来自ApplicationMaster的资源申请
并且为其进行分配

Nodemanager

NM是ResourceManager在每台机器上的代理
负责容器管理，并监控它们的资源使用情况
以及向ResourceManager/Scheduler提供资源使用报告

总结

Mysql

在192.168.84.128上安装Mysql

docker pull mysql:5.7

# 创建数据,配置目录
mkdir -p /docker/mysql/{data,conf.d}
 
 
# 创建配置文件
 
vi /docker/mysql/conf.d/my.cnf
 
# 添个一项配置，默认是 UTC
[mysqld]
 
log_timestamps=SYSTEM
default-time-zone='+8:00'
 
character-set-server=utf8


 
 
# 重新启动
 
docker run --name mysql -p 3306:3306 \
-v /docker/mysql/conf.d:/etc/mysql/conf.d \
-v /docker/mysql/data:/var/lib/mysql \
-e MYSQL_ROOT_PASSWORD=123456 \
--restart=always -d mysql:5.7
 
# 参数说明
-e MYSQL_ROOT_PASSWORD=123456：初始化root用户的密码
--restart=always：跟随 Docker 启动

Hive启动

配置Mysql用于存储hive元数据

cd /usr/local/hive/conf
vi hive-site.xml

初次启动Hive元数据初始化

在hadoop1上初始化元数据

cd /usr/local/hadoop/sbin
schematool -initSchema -dbType mysql

若报错 Duplicate key name 'PCS_STATS_IDX'

说明已经有hive数据库了 删除即可

若报错javax.net.ssl.SSLException: closing inbound before receiving peer's close_notify

如上面截图
添加 &useSSL=false

在hadoop1上启动hive

cd /usr/local/hive/bin
hiveserver2 &

简单的使用下hive

cd /usr/local/hive/bin
./hive


# 创建表事例
CREATE TABLE IF NOT EXISTS test (
id int
,uid int
,title string
,name string
,status int
,time timestamp)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY "\001"
LINES TERMINATED BY "\n"
STORED AS TEXTFILE;

CREATE TABLE IF NOT EXISTS test_out (
name string
, count int
,time date)
COMMENT '简介'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\001'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

# 统计后将结果数据加入另一个表
INSERT INTO TABLE 
test_out(name,count,time) 
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

INSERT OVERWRITE 
TABLE test_out
SELECT name,count(1),to_date(time) 
FROM test 
GROUP BY name,to_date(time);

计算结果保存在了hadoop中了

后面会介绍 Mysql和Hive之间如何导入导出

启动Hbase

cd /usr/local/hbase/bin
start-hbase.sh

Sqoop启动

测试sqoop功能

cd /usr/local/sqoop/bin

sqoop \
list-databases \
--connect jdbc:mysql://192.168.84.128:3306/?useSSL=false \
--username root \
--password 123456

Kafka启动

cd /usr/local/kafka/bin

kafka-server-start.sh -daemon ${KAFKA_HOME}/config/server.properties

测试

创建主题

kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test

分区查看

kafka-topics.sh --zookeeper localhost:2181 --describe  --topic test

分区扩容

kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 3 --topic test

启动Spark

在hadoop1(192.168.84.128)上启动

cd /usr/local/spark/bin

${SPARK_HOME}/sbin/start-all.sh

启动Kylin

在hadoop1启动mr-jobhistory

cd /usr/local/kylin/bin

mr-jobhistory-daemon.sh start historyserver

在hadoop1上启动

kylin.sh start

http://192.168.84.128:7070/kylin
初始用户名和密码为ADMIN/KYLIN

最后附上一副大数据架构图

后记

上面的内容咱们介绍了大数据的每一个组件的启动过程
下篇文章咱们介绍下Mysql和Hive之间同步数据的两种方式
和将整个流程串联起来看看数据是如何流转的

fsimage

上一篇：一文读懂为什么HDFS更适合存储大文件
下一篇：HDFS元数据管理机制（hadoop元数据管理）

搭建大数据运行环境之二（大数据环境搭建步骤）

前言

上篇文章的几个注意点再重申下

启动hadoop集群

科普一下hadoop这几个节点的作用

Namenode

Datanode

Secondarynode

Resourcemanager

Nodemanager

总结

Mysql

Hive启动

启动Hbase

Sqoop启动

Kafka启动

启动Spark

启动Kylin

最后附上一副大数据架构图

后记

相关推荐

取消回复欢迎你发表评论:

写给新手|头条文章如何排版更美观?电脑端教程

「基本功」前端安全系列之二:如何防止CSRF攻击?

MySQL InnoDB乐观锁，悲观锁(共享锁|排它锁)，行锁表锁及死锁

如何应用策略设计模式分离JDBC数据库连接中的外部环境信息

同一套网络直播源，为什么别人能用自己却用不了?

视频讲解学员信息管理系统升级版（学员管理系统培训机构）

字符串:听说你对KMP还有这些疑问?

JavaScript 实现点击/关闭全屏（怎么关闭javascript弹出框）

深入细聊前端下载总结「干货」（前端软件下载）

黑马程序员:IT技术学习线路图免费任性分享

搭建大数据运行环境之二（大数据环境搭建步骤）

前言

上篇文章的几个注意点再重申下

启动hadoop集群

科普一下hadoop这几个节点的作用

Namenode

Datanode

Secondarynode

Resourcemanager

Nodemanager

总结

Mysql

Hive启动

启动Hbase

Sqoop启动

Kafka启动

启动Spark

启动Kylin

最后附上一副大数据架构图

后记

相关推荐

取消回复欢迎 你 发表评论:

写给新手|头条文章如何排版更美观?电脑端教程

「基本功」前端安全系列之二:如何防止CSRF攻击?

MySQL InnoDB乐观锁，悲观锁(共享锁|排它锁)，行锁表锁及死锁

如何应用策略设计模式分离JDBC数据库连接中的外部环境信息

同一套网络直播源，为什么别人能用自己却用不了?

视频讲解学员信息管理系统升级版（学员管理系统 培训机构）

字符串:听说你对KMP还有这些疑问?

JavaScript 实现点击/关闭全屏（怎么关闭javascript弹出框）

深入细聊前端下载总结「干货」（前端软件下载）

黑马程序员:IT技术学习线路图免费任性分享

取消回复欢迎你发表评论:

视频讲解学员信息管理系统升级版（学员管理系统培训机构）