百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

大数据之数据仓库Hive架构分析(hive数据仓库建模工具)

wxin55 2024-11-10 12:18 10 浏览 0 评论


Hive 介绍

hive 是就hadoop 的一个数据仓库工具,可以将结构化数据映射成一张表,并且提供类sql 查询功能。设计的目的就是让熟悉sql 语法的开发人员能够不通过写M/R 作业任务就可以完成对存储在hdfs中的数据进行查询计算。

hive 可以将sql 转换成计算引擎所支持的task作业执行,可以以M/R/Spark/Tez 作为计算引擎,执行下效率取决于计算引擎

hive 只是适合做批量离线数据分析处理

Hive 处理数据流程

hive 利用hdfs 存储数据,通过M/R 进行数据计算分析流程

Hive 组件结构(引用别人的图,哈哈)



通过上图中hive 的组件架构分析可知,hive通过以下几部分组成:

hive 的元数据信息保存通过独立的服务组件 Hive Metastore Server 存储在关系型数据库中,其支持的数据有derby(默认支持)、mysql等。

Hive 的运行模式:根据Hive服务和Metastore Server 是否运行在同一个进程分为内嵌模式本地模式远程模式

注意:

此处提到的Thrift是一种描述性语言和通信协议,被用来定义跨语言服务(java/c++/go等),被facebook为支持大规模的跨语言服务而开发的RPC框架使用。

  1. Hive CLI 从hive-0.11 开始, Beeline 被引入作为新的命令行客户端工具,是基于SqlLine 的jdbc 客户端。


  1. HS2远程jdbc/odbc客户端

官方解释:

HiveServer2 (HS2) is a server interface that enables remote clients to execute queries against Hive and retrieve the results (a more detailed intro here).

The current implementation, based on Thrift RPC, is an improved version of HiveServer and supports multi-client concurrency and authentication.

从官方解释可以看出,HS2 是一个服务接口,可以是远程客户端执行对hive的查询并且获取到对应的返回结果。此外Hive Server 的升级版本,并且支持多客户端并发和身份认证

Hive Server2(HS2) 可以通过http(hive-0.13版本以上)和tcp(即binary,默认)进行传输Thrift Rpc 消息,可以通过 hive.server2.transport.mode 设置的值(http或binary) 执行数据传输模式,不能同时使用这两种模式。

从配置上可以看出,HS2 支持多种身份认证的方式,none 表示不需要身份验证。

HS2的执行核心是Thrift Rpc 服务。Hive Server 在tcp 传输模式下使用的是ThreadPoolServer,而http 传输模式下使用的是Jetty Server, Server 会为每一个tcp 连接分配一个线程去执行业务处理。例如,cdh 中的HS2 配置:

HS2 是怎么在Jdbc和Hive 之间完成工作协调的呢?(HS2的原理还待研究。。。)

从hive的组件架构图中我们可以看出,driver 包含compiler/optimizer/executor,hive 通过antlr3 定义HiveSql 语言。

ANTLR(ANother Tool for Language Recognition) 是一款强大的语言构建工具,提供词法分析、语法分析等功能。用户编写语言的词法规则和语法规则,然后通过ANTLR 提供的运行时库将语言转换成抽象语法树,支持语法树重写,import、语法预测等功能。

compiler:

  1. 词法解析器ParseDriver:将查询的字段转换成AST抽象语法树
  2. 语法分析器SemanticAnalyzer:将AST转换成基于语句块的内部查询表达式
  3. 逻辑计划生成器 logic plan generator:将内部查询表达式转换成逻辑计划
  4. 查询计划生成器 query plan generator:将逻辑计划转换成物理计划 M/R Task,形成一个DAG图(task链)

optimizer:

优化处理,如谓词下推

executor:

执行器顺序执行DAG中的task,如果task 链不存在依赖关系(spark中的宽依赖)则会并执行task


参考文档:

https://www.xuebuyuan.com/2181078.html

https://www.cnblogs.com/zhangshihai1232/articles/6075124.html

相关推荐

ES6中 Promise的使用场景?(es6promise用法例子)

一、介绍Promise,译为承诺,是异步编程的一种解决方案,比传统的解决方案(回调函数)更加合理和更加强大在以往我们如果处理多层异步操作,我们往往会像下面那样编写我们的代码doSomething(f...

JavaScript 对 Promise 并发的处理方法

Promise对象代表一个未来的值,它有三种状态:pending待定,这是Promise的初始状态,它可能成功,也可能失败,前途未卜fulfilled已完成,这是一种成功的状态,此时可以获取...

Promise的九大方法(promise的实例方法)

1、promise.resolv静态方法Promise.resolve(value)可以认为是newPromise方法的语法糖,比如Promise.resolve(42)可以认为是以下代码的语...

360前端一面~面试题解析(360前端开发面试题)

1.组件库按需加载怎么做的,具体打包配了什么-按需加载实现:借助打包工具(如Webpack的require.context或ES模块动态导入),在使用组件时才引入对应的代码。例如在V...

前端面试-Promise 的 finally 怎么实现的?如何在工作中使用?

Promise的finally方法是一个非常有用的工具,它无论Promise是成功(fulfilled)还是失败(rejected)都会执行,且不改变Promise的最终结果。它的实现原...

最简单手写Promise,30行代码理解Promise核心原理和发布订阅模式

看了全网手写Promise的,大部分对于新手还是比较难理解的,其中几个比较难的点:状态还未改变时通过发布订阅模式去收集事件实例化的时候通过调用构造函数里传出来的方法去修改类里面的状态,这个叫Re...

前端分享-Promise可以中途取消啦(promise可以取消吗)

传统Promise就像一台需要手动组装的设备,每次使用都要重新接线。而Promise.withResolvers的出现,相当于给开发者发了一个智能遥控器,可以随时随地控制异步操作。它解决了三大...

手写 Promise(手写输入法 中文)

前言都2020年了,Promise大家肯定都在用了,但是估计很多人对其原理还是一知半解,今天就让我们一起实现一个符合PromiseA+规范的Promise。附PromiseA+规范地址...

什么是 Promise.allSettled()!新手老手都要会?

Promise.allSettled()方法返回一个在所有给定的promise都已经fulfilled或rejected后的promise,并带有一个对象数组,每个对象表示对应的pr...

前端面试-关于Promise解析与高频面试题示范

Promise是啥,直接上图:Promise就是处理异步函数的API,它可以包裹一个异步函数,在异步函数完成时抛出完成状态,让代码结束远古时无限回掉的窘境。配合async/await语法糖,可...

宇宙厂:为什么前端离不开 Promise.withResolvers() ?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.为什么需要Promise.with...

Promise 新增了一个超实用的 API!

在JavaScript的世界里,Promise一直是处理异步操作的神器。而现在,随着ES2025的发布,Promise又迎来了一个超实用的新成员——Promise.try()!这个新方法简...

一次搞懂 Promise 异步处理(promise 异步顺序执行)

PromisePromise就像这个词的表面意识一样,表示一种承诺、许诺,会在后面给出一个结果,成功或者失败。现在已经成为了主流的异步编程的操作方式,写进了标准里面。状态Promise有且仅有...

Promise 核心机制详解(promise机制的实现原理)

一、Promise的核心状态机Promise本质上是一个状态机,其行为由内部状态严格管控。每个Promise实例在创建时处于Pending(等待)状态,此时异步操作尚未完成。当异步操作成功...

javascript——Promise(js实现promise)

1.PromiseES6开始支持,Promise对象用于一个异步操作的最终完成(包括成功和失败)及结果值的表示。简单说就是处理异步请求的。之所以叫Promise,就是我承诺,如果成功则怎么处理,失败怎...

取消回复欢迎 发表评论: