百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Hive最全总结,学习与面试,收藏这一篇就够了!

wxin55 2024-10-25 18:03 10 浏览 0 评论

Hive基础概念和用途

Hive是Hadoop下的顶级 Apache项目,早期的Hive开发工作始于2007年的 Facebook。

? Apache Hive是一款建立在Hadoop之上的开源数据仓库系统,可以将存储在Hadoop文件中的结构化、半结构化

数据文件映射为一张数据库表,基于表提供了一种类似SQL的查询模型,称为Hive查询语言(HQL),用于访问和分析存储在Hadoop文件中的大型数据集。

? Hive核心是将HQL转换为MapReduce程序,然后将程序提交到Hadoop群集执行。

? Hive由Facebook实现并开源。

Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

Apache Hive架构图


Hive组件

用户接口:包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。

元数据存储:通常是存储在关系数据库如 mysql/derby中。Hive 将元数据存储在数据库中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

解释器、编译器、优化器、执行器:完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。

执行引擎 : Hive本身并不直接处理数据文件。而是通过执行引擎处理。当下Hive支持MapReduce、Tez、Spark3种执行引擎。

Hive与Hadoop的关系

简单说就是Hive利用HDFS存储数据,利用MapReduce查询分析数据。

? 从功能来说,数据仓库软件,至少需要具备下述两种能力:

存储数据的能力、分析数据的能力

? Apache Hive作为一款大数据时代的数据仓库软件,当然也具备上述两种能力。只不过Hive并不是自己实现了上述

两种能力,而是借助Hadoop。

Hive利用HDFS存储数据,利用MapReduce查询分析数据

? 这样突然发现Hive没啥用,不过是套壳Hadoop罢了。其实不然,Hive的最大的魅力在于用户专注于编写HQL,

Hive帮您转换成为MapReduce程序完成对数据的分析。

Apache hive的技术特点

特点:

操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。

Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合。

Hive优势在于处理大数据,对于处理小数据没有优势,因为Hive的执行延迟比较高。

Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。

Hive应用场景

总的来说,Hive是十分适合数据仓库的统计分析和Windows注册表文件。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS(Hive superimposes structure on data in HDFS),并允许使用类似于SQL语法进行数据查询。 Hive更适合于数据仓库的任务,主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。

Hive与传统的关系型数据库对比

?大规模数据处理的技术了解越多,对操作系统的体会越深。以下是一些基础操作
大数据Hadoop入门教程

场景设计--Hive功能模拟实现底层猜想

Apache hive--架构图、各组件功能

Apache hive安装部署--metadata与metastore、远程模式介绍

Apache hive安装部署--与Hadoop整合、MySQL安装

Apache hive安装部署--配置文件修改编辑

Apache hive安装部署--metastore服务启动方式

Apache hive--新老客户端使用与hiveserver2服务

Apache hive--DataGrip连接Hiveserver2

Apache hive--数据库与建库、切换库操作

Apache hive--表与建表sql语句--数据类型、分隔符指定语法

Apache hive--表与建表sql语句--默认分隔符使用

Apache hive--常见的show语法

Apache hive--注释comment中文乱码解决

大数据相关:

大数据核心基础
大数据Hadoop入门教程

大数据开发
Linux零基础快速入门到精通
大数据数据开发基础MySQL8.0从入门到精通

大数据spark3.2从基础到精通

大数据Hive+Spark离线数仓工业项目实战

大数据开发编程语言:
Python入门到精通(19天全)

Python编程进阶从零到搭建网站

Python+大数据进阶教程6天掌握NoSQL实时计算基础

大数据面试八股文之Hive篇

01 Hive的三种自定义函数是什么?它们之间的区别是什么?

  • UDF:用户自定义函数,user defined function。一对一的输入输出。
  • UDTF:用户自定义表生成函数。user defined table-generate function.一对多的输入输出。
  • UDAF:用户自定义聚合函数。user defined aggregate function,多对一的输入输出比如count sum等。

02 Hive SQL语句的执行顺序

如果上来就抛给你 “select from where group by having order by” 的执行顺序

平时没有仔细研究过,这题还真不好猜。

实际上,在 hive 和 mysql 中都可以通过 explain+sql 语句,来查看执行顺序。对于一条标准 sql 语句,它的书写顺序是这样的:

select … from … where … group by … having … order by … limit …

(1)mysql 语句执行顺序:

from... where...group by... having.... select ... order by... limit …

(2)hive 语句执行顺序:

from … where … select … group by … having … order by … limit …

根据执行顺序,平时编写时需要记住以下几点: 使用分区剪裁、列剪裁,分区一定要加 少用 COUNT DISTINCT,group by 代替 distinct 是否存在多对多的关联 连接表时使用相同的关键词,这样只会产生一个 job 减少每个阶段的数据量,只选出需要的,在 join 表前就进行过滤 大表放后面 谓词下推:where 谓词逻辑都尽可能提前执行,减少下游处理的数据量 sort by 代替 order by

03 hive内部表和外部表的区别

未被external修饰的是内部表,被external修饰的为外部表。

区别:

  • 内部表数据由Hive自身管理,外部表数据由HDFS管理;
  • 内部表数据存储的位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse), 外部表数据的存储位置由自己制定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这里);
  • 删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除。

04 为什么要对数据仓库分层

  • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会 存在大量冗余的数据。如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

05 Hive 小文件过多怎么解决

  • 使用 hive 自带的 concatenate 命令,自动合并小文件
  • 调整参数减少Map数量
  • 减少Reduce的数量
  • 使用hadoop的archive将小文件归档

06 Hive有哪些方式保存元数据,各有哪些特点?

Hive支持三种不同的元存储服务器,分别为:内嵌式元存储服务器、本地元存储服务器、远程元存储服务器,每种存储方式使用不同的配置参数。

  • 内嵌式元存储主要用于单元测试,在该模式下每次只有一个进程可以连接到元存储,Derby是内嵌式元存储的默认数据库。
  • 在本地模式下,每个Hive客户端都会打开到数据存储的连接并在该连接上请求SQL查询。
  • 在远程模式下,所有的Hive客户端都将打开一个到元数据服务器的连接,该服务器依次查询元数据,元数据服务器和客户端之间使用Thrift协议通信

07 Hive的函数:UDF、UDAF、UDTF的区别?

  • UDF:单行进入,单行输出
  • UDAF:多行进入,单行输出
  • UDTF:单行输入,多行输出

08 Hive底层与数据库交互原理?

Hive 的查询功能是由 HDFS 和 MapReduce结合起来实现的,对于大规模数据查询还是不建议在 hive 中,因为过大数据量会造成查询十分缓慢。Hive 与 MySQL的关系:只是借用 MySQL来存储 hive 中的表的元数据信息,称为 metastore(元数据信息)。

09 hive中都有哪些join操作?

  • left join:以左侧为主表,返回记录与主表记录数相同,关联不上的字段为空。
  • right join:以右侧表为主表,返回记录与主表记录数相同,关联不上的字段为空。
  • full join:以两个表的记录为基准,返回两个表的记录去重之和,关联不上的字段为null。
  • cross join:返回两个表的笛卡尔积结果,不需要指定关联键。
  • map join map端连接,与普通连接的区别是这个连接中不会有reduce阶段存在,连接在map端完成。
  • common join:普通连接,在sql中不特殊指定连接方式使用的都是这种普通连接。
  • skew join:倾斜连接,主要针对数据倾斜的情况优化。
  • bucket map join:分桶连接。

10 hive 如何优化?

  • join 优化,尽量将小表放在 join 的左边,如果一个表很小可以采用 mapjoin。
  • 排序优化,order by 一个 reduce 效率低,distirbute by +sort by 也可以实现全局排序。
  • 使用分区,查询时可减少数据的检索,从而节省时间。

相关推荐

ES6中 Promise的使用场景?(es6promise用法例子)

一、介绍Promise,译为承诺,是异步编程的一种解决方案,比传统的解决方案(回调函数)更加合理和更加强大在以往我们如果处理多层异步操作,我们往往会像下面那样编写我们的代码doSomething(f...

JavaScript 对 Promise 并发的处理方法

Promise对象代表一个未来的值,它有三种状态:pending待定,这是Promise的初始状态,它可能成功,也可能失败,前途未卜fulfilled已完成,这是一种成功的状态,此时可以获取...

Promise的九大方法(promise的实例方法)

1、promise.resolv静态方法Promise.resolve(value)可以认为是newPromise方法的语法糖,比如Promise.resolve(42)可以认为是以下代码的语...

360前端一面~面试题解析(360前端开发面试题)

1.组件库按需加载怎么做的,具体打包配了什么-按需加载实现:借助打包工具(如Webpack的require.context或ES模块动态导入),在使用组件时才引入对应的代码。例如在V...

前端面试-Promise 的 finally 怎么实现的?如何在工作中使用?

Promise的finally方法是一个非常有用的工具,它无论Promise是成功(fulfilled)还是失败(rejected)都会执行,且不改变Promise的最终结果。它的实现原...

最简单手写Promise,30行代码理解Promise核心原理和发布订阅模式

看了全网手写Promise的,大部分对于新手还是比较难理解的,其中几个比较难的点:状态还未改变时通过发布订阅模式去收集事件实例化的时候通过调用构造函数里传出来的方法去修改类里面的状态,这个叫Re...

前端分享-Promise可以中途取消啦(promise可以取消吗)

传统Promise就像一台需要手动组装的设备,每次使用都要重新接线。而Promise.withResolvers的出现,相当于给开发者发了一个智能遥控器,可以随时随地控制异步操作。它解决了三大...

手写 Promise(手写输入法 中文)

前言都2020年了,Promise大家肯定都在用了,但是估计很多人对其原理还是一知半解,今天就让我们一起实现一个符合PromiseA+规范的Promise。附PromiseA+规范地址...

什么是 Promise.allSettled()!新手老手都要会?

Promise.allSettled()方法返回一个在所有给定的promise都已经fulfilled或rejected后的promise,并带有一个对象数组,每个对象表示对应的pr...

前端面试-关于Promise解析与高频面试题示范

Promise是啥,直接上图:Promise就是处理异步函数的API,它可以包裹一个异步函数,在异步函数完成时抛出完成状态,让代码结束远古时无限回掉的窘境。配合async/await语法糖,可...

宇宙厂:为什么前端离不开 Promise.withResolvers() ?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.为什么需要Promise.with...

Promise 新增了一个超实用的 API!

在JavaScript的世界里,Promise一直是处理异步操作的神器。而现在,随着ES2025的发布,Promise又迎来了一个超实用的新成员——Promise.try()!这个新方法简...

一次搞懂 Promise 异步处理(promise 异步顺序执行)

PromisePromise就像这个词的表面意识一样,表示一种承诺、许诺,会在后面给出一个结果,成功或者失败。现在已经成为了主流的异步编程的操作方式,写进了标准里面。状态Promise有且仅有...

Promise 核心机制详解(promise机制的实现原理)

一、Promise的核心状态机Promise本质上是一个状态机,其行为由内部状态严格管控。每个Promise实例在创建时处于Pending(等待)状态,此时异步操作尚未完成。当异步操作成功...

javascript——Promise(js实现promise)

1.PromiseES6开始支持,Promise对象用于一个异步操作的最终完成(包括成功和失败)及结果值的表示。简单说就是处理异步请求的。之所以叫Promise,就是我承诺,如果成功则怎么处理,失败怎...

取消回复欢迎 发表评论: