百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

0769-如何在Kerberos环境下用Ranger完成对Hive的行过滤及列脱敏

wxin55 2024-10-25 18:04 15 浏览 0 评论

文档编写目的

本篇文章主要介绍如何在CDP DC7.0.3集群中使用Ranger在Hive中进行行过滤及列脱敏,行级别的过滤相当于一个强制性的where子句,例如在订单表中,员工仅被允许查看自己所在地区的订单,其他区域的无法查看。列脱敏可以对某些敏感信息的列进行数据屏蔽,例如身份证号可以屏蔽中间的八位。

  • 测试环境

1.操作系统Redhat7.6

2.CDP DC7.0.3

3.集群已启用Kerberos

4.使用root用户操作


使用Ranger配置Hive中的行过滤

2.1 对表配置单个行过滤条件

在配置Hive中的行过滤前,需要确保授权的用户/用户组已有对要过滤的表的访问权限,即在授权给ranger_user1用户对表t1的行过滤策略前,ranger_user1需要对t1有访问权限。


1.配置ranger_user1对表t1的访问策略

配置完成后保存


2.使用ranger_user1查询t1表

用户ranger_test1对表t1有select权限,一共查询出7条记录


3.配置行过滤策略

配置完成后保存


4.使用用户ranger_test1再次访问t1表

可以看到,此时name=Tom的那条数据已经被过滤,查询结果只有6条数据。


2.2 对表配置多个行过滤条件

针对同一个表中可以配置多个行过滤条件,例如每个租户只能看到自己的数据行,下面测试对同一个表配置多个行过滤条件。

1.在所有节点创建一个新的测试用户ranger_user2,并创建Kerberos用户


2.修改访问表t1的策略,以及行过滤策略

·访问策略修改,加入ranger_user2


·行过滤策略修改,加入对ranger_user2的过滤条件


3.使用ranger_user2查询t1表

可以看到ranger_user2无法查看到name=Eric的这一条数据


4.再次使用ranger_user1查询t1表

可以看到ranger_user1仍然无法查看到name=Tom的这一条数据

由此可见,针对同一个表配置的多个行过滤条件均生效。


使用Ranger配置Hive中的列脱敏

Ranger的列屏蔽功能可以近乎实时地保护Hive中的敏感数据,可以通过设置策略,动态屏蔽或匿名化敏感的数据列,例如可以屏蔽一列的前四个或后四个字符,也可以将整列数据都屏蔽,下面会演示屏蔽的各种规则。

准备一张测试表,数据如下:


3.1 Redact

该方式是将所有字母用x代替,所有的数字字符用n代替。

1.新建列脱敏策略,使用password列进行测试


点击Add添加策略


2.使用ranger_user1进行测试,需要注意的是列脱敏的策略也是基于该用户能够访问t1表的前提才能生效。

可以看到,除了一行数据中的特殊字符外,其余的数字和字母都进行了相应的替换


3.2 Partial mask: show last 4

该方式是仅显示最后四个字符

1.修改策略,使用phone数据列进行测试

修改完成后保存策略


2.查询t1表进行测试

由上图可见,手机号这一列只显示了最后四个字符


3.3 Partial mask: show first 4

该方式是仅显示最前面四个字符

1.修改策略,使用phone列进行测试


2.查询t1表进行测试


3.4 Hash

将所有字符替换为整个单元格的值对应的哈希

1.修改策略,使用name列进行测试

修改完成后保存策略


2.查询t1表进行测试


3.5 Nullify

将所有字符替换为NULL值

1.修改策略,使用name列进行测试


2.查询t1表进行测试


3.6 Date


仅显示日期字符串的年份部分,并且默认月份和日期为01/01

1.修改策略,使用create_date列进行测试


2.查询t1表进行测试

由上图可见,日期一列只显示了年份,月份和日期使用了01-01进行代替。


3.7 Custom

该方式指定自定义的值或表达式,同时也可以使用任何有效的自定义的UDF

1.修改策略,使用phone列进行测试,屏蔽掉中间的四位数字


2.查询t1表进行测试

如上图可见,phone对应的数据中间的四位数字都被屏蔽了。


总结


1.Hive的行过滤可以对同一张表针对不同用户配置多个条件,可以满足实际场景的很多需要,例如在访问该表时不同的租户只能看到自己的数据。

2.Hive的行过滤有助于简化Hive查询。配置了行过滤相当于提供默认的where子句,Hive每次尝试访问数据时都会应用该条件,这有助于简化Hive查询的编写,不需要再将where子句添加到原本的查询语句中。

3.Hive的列脱敏中每个列都应具有单独的屏蔽策略,同一个策略只能针对一个列,在处理访问请求时,会按照策略中条件的顺序进行屏蔽。

4.Hive的列脱敏不支持通配符的匹配。如表和字段不能配置为*值。

5.在使用Date进行列脱敏时,Hive中对应字段的格式需要是时间类型,在测试中使用的date类型。

6.在对列进行脱敏时,除了使用指定的选项外,还可以用自定义的表达式或者UDF来进行脱敏。

相关推荐

ES6中 Promise的使用场景?(es6promise用法例子)

一、介绍Promise,译为承诺,是异步编程的一种解决方案,比传统的解决方案(回调函数)更加合理和更加强大在以往我们如果处理多层异步操作,我们往往会像下面那样编写我们的代码doSomething(f...

JavaScript 对 Promise 并发的处理方法

Promise对象代表一个未来的值,它有三种状态:pending待定,这是Promise的初始状态,它可能成功,也可能失败,前途未卜fulfilled已完成,这是一种成功的状态,此时可以获取...

Promise的九大方法(promise的实例方法)

1、promise.resolv静态方法Promise.resolve(value)可以认为是newPromise方法的语法糖,比如Promise.resolve(42)可以认为是以下代码的语...

360前端一面~面试题解析(360前端开发面试题)

1.组件库按需加载怎么做的,具体打包配了什么-按需加载实现:借助打包工具(如Webpack的require.context或ES模块动态导入),在使用组件时才引入对应的代码。例如在V...

前端面试-Promise 的 finally 怎么实现的?如何在工作中使用?

Promise的finally方法是一个非常有用的工具,它无论Promise是成功(fulfilled)还是失败(rejected)都会执行,且不改变Promise的最终结果。它的实现原...

最简单手写Promise,30行代码理解Promise核心原理和发布订阅模式

看了全网手写Promise的,大部分对于新手还是比较难理解的,其中几个比较难的点:状态还未改变时通过发布订阅模式去收集事件实例化的时候通过调用构造函数里传出来的方法去修改类里面的状态,这个叫Re...

前端分享-Promise可以中途取消啦(promise可以取消吗)

传统Promise就像一台需要手动组装的设备,每次使用都要重新接线。而Promise.withResolvers的出现,相当于给开发者发了一个智能遥控器,可以随时随地控制异步操作。它解决了三大...

手写 Promise(手写输入法 中文)

前言都2020年了,Promise大家肯定都在用了,但是估计很多人对其原理还是一知半解,今天就让我们一起实现一个符合PromiseA+规范的Promise。附PromiseA+规范地址...

什么是 Promise.allSettled()!新手老手都要会?

Promise.allSettled()方法返回一个在所有给定的promise都已经fulfilled或rejected后的promise,并带有一个对象数组,每个对象表示对应的pr...

前端面试-关于Promise解析与高频面试题示范

Promise是啥,直接上图:Promise就是处理异步函数的API,它可以包裹一个异步函数,在异步函数完成时抛出完成状态,让代码结束远古时无限回掉的窘境。配合async/await语法糖,可...

宇宙厂:为什么前端离不开 Promise.withResolvers() ?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.为什么需要Promise.with...

Promise 新增了一个超实用的 API!

在JavaScript的世界里,Promise一直是处理异步操作的神器。而现在,随着ES2025的发布,Promise又迎来了一个超实用的新成员——Promise.try()!这个新方法简...

一次搞懂 Promise 异步处理(promise 异步顺序执行)

PromisePromise就像这个词的表面意识一样,表示一种承诺、许诺,会在后面给出一个结果,成功或者失败。现在已经成为了主流的异步编程的操作方式,写进了标准里面。状态Promise有且仅有...

Promise 核心机制详解(promise机制的实现原理)

一、Promise的核心状态机Promise本质上是一个状态机,其行为由内部状态严格管控。每个Promise实例在创建时处于Pending(等待)状态,此时异步操作尚未完成。当异步操作成功...

javascript——Promise(js实现promise)

1.PromiseES6开始支持,Promise对象用于一个异步操作的最终完成(包括成功和失败)及结果值的表示。简单说就是处理异步请求的。之所以叫Promise,就是我承诺,如果成功则怎么处理,失败怎...

取消回复欢迎 发表评论: