百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

flink教程-flink modules详解之使用hive函数

wxin55 2024-10-25 18:02 21 浏览 0 评论

  • modules概念
  • 通过hive module使用hive函数
  • sql 客户端的使用
  • 原理分析和源码解析

modules概念

flink 提供了一个module的概念,使用户能扩展flink的内置对象,比如内置函数。这个功能是插件化的,用户可以方便的加载或者移除相应的module。

flink内置了CoreModule,并且提供了一个hive module,允许用户在加载了hive module之后使用hive的函数,包括内置函数、自定义hive函数等等。如果多个module里有重名的函数,则以先加载的函数为准。

用户还可以自定义module,只需要实现Module接口即可。如果是在sql 客户端使用,还需要实现ModuleFactory接口,因为加载的时候,flink会使用SPI机制去匹配获取相应的ModuleFactory,然后实例化相应的moudule。

通过hive module使用hive函数

我们以hive module为例,讲解一下如何使用flink提供的module功能,使用hive module的一些注意事项:

  • 通过 Hive Metastore 将带有 UDF 的 HiveCatalog 设置为当前会话的 catalog。
  • 将带有 UDF 的 jar 包放入 Flink classpath 中,并在代码中引入。
  • 使用 Blink planner,flink 1.11默认就是,不用显示指定

内置函数

  • 引入pom

<dependency>

<groupId>org.apache.flink</groupId>

<artifactId>flink-connector-hive_${scala.binary.version}</artifactId>

<version>${flink.version}</version>

</dependency>

  • 加载module

String name = "myhive";

String version = "3.1.2";

tEnv.loadModule(name, new HiveModule(version));

  • 查看module

System.out.println("list modules ------------------ ");

String[] modules = tEnv.listModules();

Arrays.stream(modules).forEach(System.out::println);

运行结果我们看到有两个module

list modules ------------------

core

myhive

  • 查看函数

System.out.println("list functions (包含hive函数):------------------ ");

String[] functions = tEnv.listFunctions();

Arrays.stream(functions).forEach(System.out::println);

我们看到列出来大概300多个函数,包含flink和hive的内置函数。

  • hive函数的使用

在hive里有一个常用的解析json的函数get_json_object,这个可以把json字符串解析之后得到想要的字段,但是flink中没有这个函数,所以我们可以通过这种方式来使用hive的函数,就不用我们自己开发UDF了。

System.out.println("hive 函数的使用: ------------------ ");

String sql = "SELECT data,get_json_object(data, '$.name') FROM (VALUES ('{\"name\":\"flink\"}'), ('{\"name\":\"hadoop\"}')) AS MyTable(data)";

List<Row> results = Lists.newArrayList(tEnv.sqlQuery(sql)

.execute()

.collect());

results.stream().forEach(System.out::println);

输出结果:

hive 函数的使用: ------------------

{"name":"flink"},flink

{"name":"hadoop"},hadoop

自定义函数

前面我们讲了如何使用hive的内置函数,这个比较简单,接在了hive的module之后就可以用了,还有一种就是如何使用hive的udf函数呢?我们接下来简单聊聊。

  • 自定义hive函数

首先我们来自定义一个hive的udf函数

  1. 引入pom

<dependency>

<groupId>org.apache.hive</groupId>

<artifactId>hive-exec</artifactId>

<version>3.1.2</version>

</dependency>

实现一个自定义函数,就是实现两个int类型数字的加和操作

  1. 定义函数

public class TestHiveUDF extends UDF{

public IntWritable evaluate(IntWritable i,IntWritable j){

return new IntWritable(i.get() + j.get());

}

}

完整代码:

https://github.com/zhangjun0x01/bigdata-examples/blob/master/hive/src/main/java/com/test/TestHiveUDF.java

  1. 导入

把相应的jar放到hive的classpath下面

定义函数

add jar /home/work/work/hive/lib/hive-1.0-SNAPSHOT.jar;

CREATE FUNCTION mysum AS "com.test.TestHiveUDF";

  1. 测试

boolean b = Arrays.asList(functions1).contains("mysum");

System.out.println("是否包含自定义函数: " + b);

String sqlUdf = "select mysum(1,2)";

List results1 = Lists.newArrayList(tEnv.sqlQuery(sqlUdf)

.execute()

.collect());

System.out.println("使用自定义函数处理结果: ");

results1.stream().forEach(System.out::println);

完整的代码请参考:

https://github.com/zhangjun0x01/bigdata-examples/blob/master/flink/src/main/java/modules/HiveModulesTest.java

sql 客户端的使用

在sql-client-defaults.yaml里配置相关的模块,然后就可以使用了.

# Define modules here.

modules: # note the following modules will be of the order they are specified

- name: core

type: core

- name: hive

type: hive

原理分析和源码解析

其实相关的源码实现也不难,就是将hive的相关函数转成了flink的函数,我们简单的来看下,主要是在HiveModule类里面。

public class HiveModule implements Module {

.............

private final HiveFunctionDefinitionFactory factory;

private final String hiveVersion;

private final HiveShim hiveShim;

这个里面有三个主要的变量,用于构造函数的factory,hive的版本hiveVersion,以及用于处理不同版本hive的处理类hiveShim。

实现

具体转换函数的方法是getFunctionDefinition,这个方法调用了工厂类的createFunctionDefinitionFromHiveFunction方法,

我们进入 HiveFunctionDefinitionFactory#createFunctionDefinitionFromHiveFunction。

public FunctionDefinition createFunctionDefinitionFromHiveFunction(String name, String functionClassName) {

Class clazz;

try {

clazz = Thread.currentThread().getContextClassLoader().loadClass(functionClassName);

LOG.info("Successfully loaded Hive udf '{}' with class '{}'", name, functionClassName);

} catch (ClassNotFoundException e) {

throw new TableException(

String.format("Failed to initiate an instance of class %s.", functionClassName), e);

}

if (UDF.class.isAssignableFrom(clazz)) {

LOG.info("Transforming Hive function '{}' into a HiveSimpleUDF", name);

return new ScalarFunctionDefinition(

name,

new HiveSimpleUDF(new HiveFunctionWrapper<>(functionClassName), hiveShim)

);

}

..........

我们看到首先会加载相关函数,这个也就是为什么要求我们把hive的udf jar放到flink的classpath的原因。之后是一堆if else判断,Hive UDF 和 GenericUDF 函数会自动转换成 Flink 中的 ScalarFunction,GenericUDTF 会被自动转换成 Flink 中的 TableFunction,UDAF 和 GenericUDAFResolver2 则转换成 Flink 聚合函数(AggregateFunction).这样当我们就可以在flink中使用相应的hive函数了。

参考资料:

[1].https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/hive/hive_functions.html

更多内容,欢迎关注我的公众号【大数据技术与应用实战】

相关推荐

ES6中 Promise的使用场景?(es6promise用法例子)

一、介绍Promise,译为承诺,是异步编程的一种解决方案,比传统的解决方案(回调函数)更加合理和更加强大在以往我们如果处理多层异步操作,我们往往会像下面那样编写我们的代码doSomething(f...

JavaScript 对 Promise 并发的处理方法

Promise对象代表一个未来的值,它有三种状态:pending待定,这是Promise的初始状态,它可能成功,也可能失败,前途未卜fulfilled已完成,这是一种成功的状态,此时可以获取...

Promise的九大方法(promise的实例方法)

1、promise.resolv静态方法Promise.resolve(value)可以认为是newPromise方法的语法糖,比如Promise.resolve(42)可以认为是以下代码的语...

360前端一面~面试题解析(360前端开发面试题)

1.组件库按需加载怎么做的,具体打包配了什么-按需加载实现:借助打包工具(如Webpack的require.context或ES模块动态导入),在使用组件时才引入对应的代码。例如在V...

前端面试-Promise 的 finally 怎么实现的?如何在工作中使用?

Promise的finally方法是一个非常有用的工具,它无论Promise是成功(fulfilled)还是失败(rejected)都会执行,且不改变Promise的最终结果。它的实现原...

最简单手写Promise,30行代码理解Promise核心原理和发布订阅模式

看了全网手写Promise的,大部分对于新手还是比较难理解的,其中几个比较难的点:状态还未改变时通过发布订阅模式去收集事件实例化的时候通过调用构造函数里传出来的方法去修改类里面的状态,这个叫Re...

前端分享-Promise可以中途取消啦(promise可以取消吗)

传统Promise就像一台需要手动组装的设备,每次使用都要重新接线。而Promise.withResolvers的出现,相当于给开发者发了一个智能遥控器,可以随时随地控制异步操作。它解决了三大...

手写 Promise(手写输入法 中文)

前言都2020年了,Promise大家肯定都在用了,但是估计很多人对其原理还是一知半解,今天就让我们一起实现一个符合PromiseA+规范的Promise。附PromiseA+规范地址...

什么是 Promise.allSettled()!新手老手都要会?

Promise.allSettled()方法返回一个在所有给定的promise都已经fulfilled或rejected后的promise,并带有一个对象数组,每个对象表示对应的pr...

前端面试-关于Promise解析与高频面试题示范

Promise是啥,直接上图:Promise就是处理异步函数的API,它可以包裹一个异步函数,在异步函数完成时抛出完成状态,让代码结束远古时无限回掉的窘境。配合async/await语法糖,可...

宇宙厂:为什么前端离不开 Promise.withResolvers() ?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.为什么需要Promise.with...

Promise 新增了一个超实用的 API!

在JavaScript的世界里,Promise一直是处理异步操作的神器。而现在,随着ES2025的发布,Promise又迎来了一个超实用的新成员——Promise.try()!这个新方法简...

一次搞懂 Promise 异步处理(promise 异步顺序执行)

PromisePromise就像这个词的表面意识一样,表示一种承诺、许诺,会在后面给出一个结果,成功或者失败。现在已经成为了主流的异步编程的操作方式,写进了标准里面。状态Promise有且仅有...

Promise 核心机制详解(promise机制的实现原理)

一、Promise的核心状态机Promise本质上是一个状态机,其行为由内部状态严格管控。每个Promise实例在创建时处于Pending(等待)状态,此时异步操作尚未完成。当异步操作成功...

javascript——Promise(js实现promise)

1.PromiseES6开始支持,Promise对象用于一个异步操作的最终完成(包括成功和失败)及结果值的表示。简单说就是处理异步请求的。之所以叫Promise,就是我承诺,如果成功则怎么处理,失败怎...

取消回复欢迎 发表评论: