Hive最全总结，学习与面试，收藏这一篇就够了!

wxin55 2024-10-25 18:03 10 浏览 0 评论

Hive基础概念和用途

Hive是Hadoop下的顶级 Apache项目，早期的Hive开发工作始于2007年的 Facebook。

? Apache Hive是一款建立在Hadoop之上的开源数据仓库系统，可以将存储在Hadoop文件中的结构化、半结构化

数据文件映射为一张数据库表，基于表提供了一种类似SQL的查询模型，称为Hive查询语言（HQL），用于访问和分析存储在Hadoop文件中的大型数据集。

? Hive核心是将HQL转换为MapReduce程序，然后将程序提交到Hadoop群集执行。

? Hive由Facebook实现并开源。

Hive的优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上，总归为大数据，并使得查询和分析方便。

Apache Hive架构图

Hive组件

用户接口：包括 CLI、JDBC/ODBC、WebGUI。其中，CLI(command line interface)为shell命令行；JDBC/ODBC是Hive的JAVA实现，与传统数据库JDBC类似；WebGUI是通过浏览器访问Hive。

元数据存储：通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。

执行引擎 : Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

Hive与Hadoop的关系

简单说就是Hive利用HDFS存储数据，利用MapReduce查询分析数据。

? 从功能来说，数据仓库软件，至少需要具备下述两种能力：

存储数据的能力、分析数据的能力

? Apache Hive作为一款大数据时代的数据仓库软件，当然也具备上述两种能力。只不过Hive并不是自己实现了上述

两种能力，而是借助Hadoop。

Hive利用HDFS存储数据，利用MapReduce查询分析数据。

? 这样突然发现Hive没啥用，不过是套壳Hadoop罢了。其实不然，Hive的最大的魅力在于用户专注于编写HQL，

Hive帮您转换成为MapReduce程序完成对数据的分析。

Apache hive的技术特点

特点：

操作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

Hive应用场景

总的来说，Hive是十分适合数据仓库的统计分析和Windows注册表文件。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（Hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。 Hive更适合于数据仓库的任务，主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive与传统的关系型数据库对比

?大规模数据处理的技术了解越多，对操作系统的体会越深。以下是一些基础操作
大数据Hadoop入门教程

场景设计--Hive功能模拟实现底层猜想

Apache hive--架构图、各组件功能

Apache hive安装部署--metadata与metastore、远程模式介绍

Apache hive安装部署--与Hadoop整合、MySQL安装

Apache hive安装部署--配置文件修改编辑

Apache hive安装部署--metastore服务启动方式

Apache hive--新老客户端使用与hiveserver2服务

Apache hive--DataGrip连接Hiveserver2

Apache hive--数据库与建库、切换库操作

Apache hive--表与建表sql语句--数据类型、分隔符指定语法

Apache hive--表与建表sql语句--默认分隔符使用

Apache hive--常见的show语法

Apache hive--注释comment中文乱码解决

大数据相关：

大数据核心基础
大数据Hadoop入门教程

大数据开发
Linux零基础快速入门到精通
大数据数据开发基础MySQL8.0从入门到精通

大数据spark3.2从基础到精通

大数据Hive+Spark离线数仓工业项目实战

大数据开发编程语言：
Python入门到精通（19天全）

Python编程进阶从零到搭建网站

Python+大数据进阶教程6天掌握NoSQL实时计算基础

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

UDF：用户自定义函数，user defined function。一对一的输入输出。
UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。
UDAF：用户自定义聚合函数。user defined aggregate function，多对一的输入输出比如count sum等。

02 Hive SQL语句的执行顺序

如果上来就抛给你 “select from where group by having order by” 的执行顺序

平时没有仔细研究过，这题还真不好猜。

实际上，在 hive 和 mysql 中都可以通过 explain+sql 语句，来查看执行顺序。对于一条标准 sql 语句，它的书写顺序是这样的：

select … from … where … group by … having … order by … limit …

（1）mysql 语句执行顺序：

from... where...group by... having.... select ... order by... limit …

（2）hive 语句执行顺序：

from … where … select … group by … having … order by … limit …

根据执行顺序，平时编写时需要记住以下几点： 使用分区剪裁、列剪裁，分区一定要加少用 COUNT DISTINCT，group by 代替 distinct 是否存在多对多的关联连接表时使用相同的关键词，这样只会产生一个 job 减少每个阶段的数据量，只选出需要的，在 join 表前就进行过滤大表放后面谓词下推：where 谓词逻辑都尽可能提前执行，减少下游处理的数据量 sort by 代替 order by

03 hive内部表和外部表的区别

未被external修饰的是内部表，被external修饰的为外部表。

区别:

内部表数据由Hive自身管理，外部表数据由HDFS管理；
内部表数据存储的位置是hive.metastore.warehouse.dir（默认：/user/hive/warehouse），外部表数据的存储位置由自己制定（如果没有LOCATION，Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹，并将属于这个表的数据存放在这里）；
删除内部表会直接删除元数据（metadata）及存储数据；删除外部表仅仅会删除元数据，HDFS上的文件并不会被删除。

04 为什么要对数据仓库分层

用空间换时间，通过大量的预处理来提升应用系统的用户体验（效率），因此数据仓库会存在大量冗余的数据。如果不分层的话，如果源业务系统的业务规则发生变化将会影响整个数据清洗过程，工作量巨大。
通过数据分层管理可以简化数据清洗的过程，因为把原来一步的工作分到了多个步骤去完成，相当于把一个复杂的工作拆成了多个简单的工作，把一个大的黑盒变成了一个白盒，每一层的处理逻辑都相对简单和容易理解，这样我们比较容易保证每一个步骤的正确性，当数据发生错误的时候，往往我们只需要局部调整某个步骤即可。

05 Hive 小文件过多怎么解决

使用 hive 自带的 concatenate 命令，自动合并小文件
调整参数减少Map数量
减少Reduce的数量
使用hadoop的archive将小文件归档

06 Hive有哪些方式保存元数据，各有哪些特点？

Hive支持三种不同的元存储服务器，分别为：内嵌式元存储服务器、本地元存储服务器、远程元存储服务器，每种存储方式使用不同的配置参数。

内嵌式元存储主要用于单元测试，在该模式下每次只有一个进程可以连接到元存储，Derby是内嵌式元存储的默认数据库。
在本地模式下，每个Hive客户端都会打开到数据存储的连接并在该连接上请求SQL查询。
在远程模式下，所有的Hive客户端都将打开一个到元数据服务器的连接，该服务器依次查询元数据，元数据服务器和客户端之间使用Thrift协议通信

07 Hive的函数：UDF、UDAF、UDTF的区别？

UDF：单行进入，单行输出
UDAF：多行进入，单行输出
UDTF：单行输入，多行输出

08 Hive底层与数据库交互原理？

Hive 的查询功能是由 HDFS 和 MapReduce结合起来实现的，对于大规模数据查询还是不建议在 hive 中，因为过大数据量会造成查询十分缓慢。Hive 与 MySQL的关系：只是借用 MySQL来存储 hive 中的表的元数据信息，称为 metastore（元数据信息）。

09 hive中都有哪些join操作？

left join：以左侧为主表，返回记录与主表记录数相同，关联不上的字段为空。
right join：以右侧表为主表，返回记录与主表记录数相同，关联不上的字段为空。
full join：以两个表的记录为基准，返回两个表的记录去重之和，关联不上的字段为null。
cross join：返回两个表的笛卡尔积结果，不需要指定关联键。
map join map端连接，与普通连接的区别是这个连接中不会有reduce阶段存在，连接在map端完成。
common join：普通连接，在sql中不特殊指定连接方式使用的都是这种普通连接。
skew join：倾斜连接，主要针对数据倾斜的情况优化。
bucket map join：分桶连接。

10 hive 如何优化？

join 优化，尽量将小表放在 join 的左边，如果一个表很小可以采用 mapjoin。
排序优化，order by 一个 reduce 效率低，distirbute by +sort by 也可以实现全局排序。
使用分区，查询时可减少数据的检索，从而节省时间。

hive行转列函数

上一篇：0607-如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
下一篇：大数据之-HIVE入门(二十一)（php hive大数据处理）

Hive最全总结，学习与面试，收藏这一篇就够了!

Hive基础概念和用途

Apache Hive架构图

Hive组件

Hive与Hadoop的关系

Apache hive的技术特点

Hive应用场景

Hive与传统的关系型数据库对比

大数据相关：

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

02 Hive SQL语句的执行顺序

03 hive内部表和外部表的区别

04 为什么要对数据仓库分层

05 Hive 小文件过多怎么解决

06 Hive有哪些方式保存元数据，各有哪些特点？

07 Hive的函数：UDF、UDAF、UDTF的区别？

08 Hive底层与数据库交互原理？

09 hive中都有哪些join操作？

10 hive 如何优化？

相关推荐

取消回复欢迎你发表评论:

写给新手|头条文章如何排版更美观?电脑端教程

「基本功」前端安全系列之二:如何防止CSRF攻击?

MySQL InnoDB乐观锁，悲观锁(共享锁|排它锁)，行锁表锁及死锁

如何应用策略设计模式分离JDBC数据库连接中的外部环境信息

同一套网络直播源，为什么别人能用自己却用不了?

JavaScript 实现点击/关闭全屏（怎么关闭javascript弹出框）

视频讲解学员信息管理系统升级版（学员管理系统培训机构）

字符串:听说你对KMP还有这些疑问?

深入细聊前端下载总结「干货」（前端软件下载）

黑马程序员:IT技术学习线路图免费任性分享

Hive最全总结，学习与面试，收藏这一篇就够了!

Hive基础概念和用途

Apache Hive架构图

Hive组件

Hive与Hadoop的关系

Apache hive的技术特点

Hive应用场景

Hive与传统的关系型数据库对比

大数据相关：

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

02 Hive SQL语句的执行顺序

03 hive内部表和外部表的区别

04 为什么要对数据仓库分层

05 Hive 小文件过多怎么解决

06 Hive有哪些方式保存元数据，各有哪些特点？

07 Hive的函数：UDF、UDAF、UDTF的区别？

08 Hive底层与数据库交互原理？

09 hive中都有哪些join操作？

10 hive 如何优化？

相关推荐

取消回复欢迎 你 发表评论:

写给新手|头条文章如何排版更美观?电脑端教程

「基本功」前端安全系列之二:如何防止CSRF攻击?

MySQL InnoDB乐观锁，悲观锁(共享锁|排它锁)，行锁表锁及死锁

如何应用策略设计模式分离JDBC数据库连接中的外部环境信息

同一套网络直播源，为什么别人能用自己却用不了?

JavaScript 实现点击/关闭全屏（怎么关闭javascript弹出框）

视频讲解学员信息管理系统升级版（学员管理系统 培训机构）

字符串:听说你对KMP还有这些疑问?

深入细聊前端下载总结「干货」（前端软件下载）

黑马程序员:IT技术学习线路图免费任性分享

取消回复欢迎你发表评论:

视频讲解学员信息管理系统升级版（学员管理系统培训机构）