当前位置：网站首页 > 技术文章 > 正文

大数据技术之Hive（大数据技术之电影推荐系统）

wxin55 2024-11-01 14:24 10 浏览 0 评论

Hive 概述

1、什么是 Hive

Hive 是由 Facebook 开源用于解决海量结构化日志的数据统计工具。

Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能，我们称为HQL

【Hive 本质】

Hive 的本质就是将 HQL 转化成 MapReduce 程序。

Hive 处理的数据存储在 HDFS

Hive 分析数据底层的实现是 MapReduce

执行程序运行在 Yarn 上

【优点】

操作接口采用类 SQL 语法，提供快速开发的能力（简单、容易上手）。

避免了去写 MapReduce，减少开发人员的学习成本。

Hive 的执行延迟比较高，因此 Hive 常用于数据分析，对实时性要求不高的场合。

Hive 优势在于处理大数据，对于处理小数据没有优势，因为 Hive 的执行延迟比较高。

Hive 支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

【缺点】

Hive 的 HQL 表达能力有限

迭代式算法无法表达

数据挖掘方面不擅长，由于 MapReduce 数据处理流程的限制，效率更高的算法却无法实现。

Hive 的效率比较低

Hive 自动生成的 MapReduce 作业，通常情况下不够智能化

Hive 调优比较困难，粒度较粗

2、Hive 架构原理

用户接口：Client

CLI（command-line interface）、JDBC/ODBC(jdbc 访问 hive)、WEBUI（浏览器访问 hive）

元数据：Metastore

元数据包括：表名、表所属的数据库（默认是 default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的 derby 数据库中，推荐使用 MySQL 存储 Metastore

Hadoop

使用 HDFS 进行存储，使用 MapReduce 进行计算。

驱动器：Driver

解析器（SQL Parser）：将 SQL 字符串转换成抽象语法树 AST，这一步一般都用第三方工具库完成，比如 antlr；对 AST 进行语法分析，比如表是否存在、字段是否存在、SQL 语义是否有误。

编译器（Physical Plan）：将 AST 编译生成逻辑执行计划。

优化器（Query Optimizer）：对逻辑执行计划进行优化。

执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于 Hive 来说，就是 MR/Spark。

3、Hive 运行机制

Hive 通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的 Driver，结合元数据(MetaStore)，将这些指令翻译成 MapReduce，提交到 Hadoop 中执行，最后，将执行返回的结果输出到用户交互接口。

Hive 数据类型

1、基本数据类型

2、集合数据类型

DDL 数据定义

1、创建数据库

CREATE DATABASE [IF NOT EXISTS] database_name
[COMMENT database_comment]
[LOCATION hdfs_path]
[WITH DBPROPERTIES (property_name=property_value, ...)];

2、创建表

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
[(col_name data_type [COMMENT col_comment], ...)]
[COMMENT table_comment]
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]
[CLUSTERED BY (col_name, col_name, ...)
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]
[ROW FORMAT row_format]
[STORED AS file_format]
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。

EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实际数据的路径（LOCATION），在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

COMMENT：为表和列添加注释。

PARTITIONED BY 创建分区表

CLUSTERED BY 创建分桶表

SORTED BY 不常用，对桶中的一个或多个列另外排序

ROW FORMAT 用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。 SerDe 是 Serialize/Deserilize 的简称， hive 使用 Serde 进行行对象的序列与反序列化

STORED AS 指定存储文件类型常用的存储文件类型：SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）如果文件数据是纯文本，可以使用STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCEFILE。

LOCATION ：指定表在 HDFS 上的存储位置。

AS：后跟查询语句，根据查询结果创建表。

LIKE 允许用户复制现有的表结构，但是不复制数据。

（1）内部表

默认创建的表都是所谓的管理表，有时也被称为内部表。因为这种表，Hive 会（或多或少地）控制着数据的生命周期。Hive 默认情况下会将这些表的数据存储在由配置项 hive.metastore.warehouse.dir 所定义的目录的子目录下。

删除内部表会直接删除元数据及HDFS上的文件数据；

（2）外部表

创建表时被 external 修饰的为外部表，Hive 并非认为其完全拥有这份数据，外部表数据的存储位置由自己制定。

删除外部表只会删除元数据，并不会删除HDFS上的文件数据；

DML 数据操作

1、数据导入

向表中装载数据（Load）

load data [local] inpath '数据的 path' [overwrite] into table
student [partition (partcol1=val1,…)];

load data：表示加载数据

local：表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表

inpath：表示加载数据的路径

overwrite：表示覆盖表中已有数据，否则表示追加

into table：表示加载到哪张表

student：表示具体的表

partition：表示上传到指定分区

创建表时通过 Location 指定加载数据路径

create external table if not exists student(id int, name string)
row format delimited fields terminated by '\t'
location '/student;

2、数据导出

-- 将查询的结果导出到本地
insert overwrite local directory '/opt/module/hive/data/export/student'
select * from student;
-- 将查询的结果格式化导出到本地
insert overwrite local directory '/opt/module/hive/data/export/student'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
select * from student;
-- 将查询的结果导出到HDFS上
insert overwrite directory '/user/atguigu/student'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
select * from student;

分区表和分桶表

1、分区表（partitioned by）

分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹，该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。在查询时通过 WHERE 子句中的表达式选择查询所需要的指定的分区，这样的查询效率会提高很多。

2、分桶表（clustered by）

分区提供一个隔离数据和优化查询的便利方式。不过，并非所有的数据集都可形成合理的分区。对于一张表或者分区，Hive 可以进一步组织成桶，也就是更为细粒度的数据范围划分。分桶是将数据集分解成更容易管理的若干部分的另一个技术。

分区针对的是数据的存储路径；分桶针对的是数据文件。

函数

1、常用内置函数

（1）空字段赋值 NVL

NVL：给值为 NULL 的数据赋值，它的格式是 NVL( value，default_value)。它的功能是如果 value 为 NULL，则 NVL 函数返回 default_value 的值，否则返回 value 的值，如果两个参数都为 NULL ，则返回 NULL。

（2）CASE WHEN THEN ELSE END

条件判断函数，类似if else

（3）行转列

CONCAT(string A/col, string B/col…)：返回输入字符串连接后的结果，支持任意个输入字符串;

CONCAT_WS(separator, str1, str2,...)：它是一个特殊形式的 CONCAT()。第一个参数是剩余参数间的分隔符，分隔符将被加到被连接的字符串之间;

COLLECT_SET(col)：函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总，产生 Array 类型字段。

（4）列转行

EXPLODE(col)：将 hive 一列中复杂的 Array 或者 Map 结构拆分成多行。

LATERAL VIEW udtf(expression) tableAlias AS columnAlias ：用于和 split, explode 等 UDTF 一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。

（5）窗口函数（开窗函数）

OVER( partition by <列名> order by <列名> )：指定分析函数工作的数据窗口大小，这个数据窗口大小可能会随着行的变而变化。它同时具有分组和排序的功能，且不减少原表的行数。

例如：select name,orderdate,cost,

sum(cost) over() as sample1, --所有行相加

sum(cost) over(partition by name) as sample2, -- 按 name 分组，组内数据相加

sum(cost) over(partition by name order by orderdate) as sample3 --按 name 分组，组内数据累加

from business;

（6）排名函数（专业窗口函数）

RANK()：排序相同时会重复，总数不会变

DENSE_RANK()：排序相同时会重复，总数会减少

ROW_NUMBER()：会根据顺序计算

例如：select *,

rank() over (order by 成绩 desc) as ranking,

dense_rank() over (order by 成绩 desc) as dese_rank,

row_number() over (order by 成绩 desc) as row_num

from 班级表;

2、自定义函数

【函数类别】

UDF（User-Defined-Function）：一进一出

UDAF（User-Defined Aggregation Function）：聚集函数，多进一出，如：count/max/min

UDTF（User-Defined Table-Generating Functions）：一进多出，如：lateral view explode()

【编程步骤】

继承 Hive 提供的类

org.apache.hadoop.hive.ql.udf.generic.GenericUDF

org.apache.hadoop.hive.ql.udf.generic.GenericUDTF

实现类中的抽象方法

文件存储格式

【列式存储和行式存储】

行存储的特点

查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

列存储的特点

因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

【Hive 支持的存储数据的格式主要有：TextFile 、SequenceFile、Orc、Parquest】

TextFile 和 SequenceFile 的存储格式都是基于行式存储的；

Orc 和 Parquet 是基于列式存储的。

1、TextFile 格式

默认格式，数据不做压缩，磁盘开销大，数据解析开销大。可结合 Gzip、Bzip2 使用，但使用 Gzip 这种方式，hive 不会对数据进行切分，从而无法对数据进行并行操作。

2、Orc 格式

Orc (Optimized Row Columnar)是 Hive 0.11 版里引入的新的存储格式。

如下图所示可以看到每个 Orc 文件由 1 个或多个 stripe 组成，每个 stripe 一般为 HDFS 的块大小，每一个 stripe 包含多条记录，这些记录按照列进行独立存储，对应到 Parquet 中的 row group 的概念。每个 Stripe 里有三部分组成，分别是 Index Data，Row Data，Stripe Footer：

Index Data：一个轻量级的 index，默认是每隔 1W 行做一个索引。这里做的索引应该只是记录某行的各字段在 Row Data 中的 offset。

Row Data：存的是具体的数据，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个 Stream 来存储。

Stripe Footer：存的是各个 Stream 的类型，长度等信息。每个文件有一个 File Footer，这里面存的是每个 Stripe 的行数，每个 Column 的数据类型信息等；每个文件的尾部是一个 PostScript，这里面记录了整个文件的压缩类型以及 FileFooter 的长度信息等。在读取文件时，会 seek 到文件尾部读 PostScript，从里面解析到 File Footer 长度，再读 FileFooter，从里面解析到各个 Stripe 信息，再读各个 Stripe，即从后往前读。

3、Parquet 格式

Parquet 文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此 Parquet 格式文件是自解析的。

行组(Row Group)：每一个行组包含一定的行数，在一个 HDFS 文件中至少存储一个行组，类似于 orc 的 stripe 的概念。

列块(Column Chunk)：在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的，不同的列块可能使用不同的算法进行压缩。

页(Page)：每一个列块划分为多个页，一个页是最小的编码的单位，在同一个列块的不同页可能使用不同的编码方式。通常情况下，在存储 Parquet 数据的时候会按照 Block 大小设置行组的大小，由于一般情况下每一个 Mapper 任务处理数据的最小单位是一个 Block，这样可以把每一个行组由一个 Mapper 任务处理，增大任务执行并行度。Parquet 文件的格式。

【总结】

在实际的项目开发当中，hive 表的数据存储格式一般选择：orc 或 parquet，压缩方式一般选择 snappy，lzo

性能调优

1、执行计划（Explain）

EXPLAIN [EXTENDED | DEPENDENCY | AUTHORIZATION] query：查看详细执行计划

2、Fetch 抓取

Fetch 抓取是指Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees；在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。

在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive 默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走 mapreduce。

3、本地模式

大多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的。不过，有时 Hive 的输入数据量是非常小的。在这种情况下，为查询触发执行任务消耗的时间可能会比实际 job 的执行时间要多的多。对于大多数这种情况，Hive 可以通过本地模式在单台机器上处理所有的任务，对于小数据集，执行时间可以明显被缩短。

用户可以通过设置 hive.exec.mode.local.auto 的值为 true，来让 Hive 在适当的时候自动启动这个优化。

4、表的优化

（1）小表大表 Join（Map Join）

将key相对分散，并且数据量小的表放在join的左边，可以使用map join让小的维度表先进内存，在map端完成join。（实际测试发现：新版 hive 已经对小表JOIN大表和大表 JOIN 小表进行了优化，小表放在左边和右边已经没有区别。）

（2）大表 Join 大表

空 key 过滤：有时 join 超时是因为某些 key 对应的数据太多，而相同 key 对应的数据都会发送到相同的 reducer 上，从而导致内存不够。此时我们应该仔细分析这些异常的 key，很多情况下，这些 key 对应的数据是异常数据，我们需要在 SQL 语句中进行过滤。

空 key 转换：有时虽然某个 key 为空对应的数据很多，但是相应的数据不是异常数据，必须要包含在 join 的结果中，此时我们可以表 a 中 key 为空的字段赋一个随机的值，使得数据随机均匀地分不到不同的 reducer 上。

（3）Group By

默认情况下，Map 阶段同一 Key 数据分发给一个 reduce，当一个 key 数据过大时就倾斜了。并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。

（4）Count(Distinct) 去重统计

数据量小的时候无所谓，数据量大的情况下，由于 COUNT DISTINCT 操作需要用一个 Reduce Task 来完成，这一个 Reduce 需要处理的数据量太大，就会导致整个 Job 很难完成，一般 COUNT DISTINCT 使用先 GROUP BY 再 COUNT 的方式替换，但是需要注意 group by 造成的数据倾斜问题。

（5）笛卡尔积

尽量避免笛卡尔积，join 的时候不加 on 条件，或者无效的 on 条件，Hive 只能使用 1 个 reducer 来完成笛卡尔积

（6）行列过滤

列处理：在 SELECT 中，只拿需要的列，如果有分区，尽量使用分区过滤，少用 SELECT *。

行处理：在分区剪裁中，当使用外关联时，如果将副表的过滤条件写在 Where 后面，那么就会先全表关联后再过滤

（7）分区和分桶

表数据量过大时，可以考虑使用分区表和分桶表。

hive列转行函数

上一篇：Java培训机构可靠吗?谈谈我从校园到中关村的经历
下一篇：Flink SQL 知其所以然(四)| 流 join 很难嘛?(上)