百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

Hive SQL 窗口函数(hive sql lag)

wxin55 2024-10-25 18:02 12 浏览 0 评论

在 SQL 中有一类函数叫做聚合函数,例如 sum()、avg()、max()、min() 等等,这类函数可以将多行数据按照规则聚集为一行,一般来讲聚集后的行数是要少于聚集前的行数的。但是,有时候我们既要显示聚集前的数据,又要显示聚集后的数据,此时我们便引入了窗口函数。窗口函数主要用于 OLAP 数据分析。


在深入研究Over字句之前,一定要注意:在SQL处理中,窗口函数都是最后一步执行,而且仅位于Order by子句之前。


窗口函数描述LAG()LAG()窗口函数返回分区中当前行之前行(可以指定第几行)的值。 如果没有行,则返回null。LEAD()LEAD()窗口函数返回分区中当前行后面行(可以指定第几行)的值。 如果没有行,则返回null。FIRST_VALUEFIRST_VALUE窗口函数返回相对于窗口中第一行的指定列的值。LAST_VALUELAST_VALUE窗口函数返回相对于窗口中最后一行的指定列的值。


LAG 和 LEAD 的用法:


LAG | LEAD
( <col>, <line_num>, <DEFAULT> )
OVER ( [ PARTITION BY ] [ ORDER BY ] )


FIRST_VALUE 和 LAST_VALUE 的用法:


FIRST_VALUE | LAST_VALUE
( <col>,<ignore nulls as boolean> ) OVER
( [ PARTITION BY ] [ ORDER BY ][ window_clause ] )


下面举个例子,数据集如下:


hive> select * from tmp_pv;
OK
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-10  1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-11  5
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-12  7
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-13  3
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-14  2
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-15  4
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2019-02-16  4
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-10  2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-11  9
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-12  3
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-13  10
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-14  1
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-15  8
993BD7AD-3B62-BA0C-15AE-A14B85921889    2019-02-16  2
Time taken: 0.102 seconds, Fetched: 14 row(s)


LAG(col,n,default)


与 partitioned by 结合使用,返回当前分区中,当前行之前的第 n 行对应的值。如果没有则默认换回 null。第一个参数为列名,第二个参数为当前行之前第n行(可选,默认为1),第三个参数为缺失时默认值(当前行之前第n行为NULL没有时,返回该默认值,如不指定,则为NULL)。


为了比较每个用户浏览次数与前一天的浏览次数进行比较,查询返回当前浏览次数以及前一天的浏览数量。由于在2019-02-10之前没有浏览行为,前一天的浏览次数设置为0(不设置默认为NULL)。


hive> select gid, dt, pv, lag(pv, 1, 0) over (partition by gid order by dt) as pre_pv from tmp_pv;
 
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-10  1   0
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-11  5   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-12  7   5
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-13  3   7
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-14  2   3
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-15  4   2
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-16  4   4
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-10  2   0
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-11  9   2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-12  3   9
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-13  10  3
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-14  1   10
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-15  8   1
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-16  2   8
Time taken: 11.783 seconds, Fetched: 14 row(s)


LEAD(col,n,default)


与 LAG 函数相反。


FIRST_VALUE(col,布尔值)

第一个参数是需要第一个值的列,第二个(可选)参数必须是默认为false的布尔值。如果设置为true,则跳过空值。


hive> select gid,dt,pv,first_value(pv,true) over(partition by gid order by dt) as first_value from temp_pv; 
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-10  1   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-11  5   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-12  7   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-13  3   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-14  2   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-15  4   1
0006D2BC-4DF9-4C0B-83AD-0183789E78D4    2017-02-16  4   1
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-10  2   2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-11  9   2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-12  3   2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-13  10  2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-14  1   2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-15  8   2
993BD7AD-3B62-BA0C-15AE-A14B85921889    2017-02-16  2   2
Time taken: 9.862 seconds, Fetched: 14 row(s)


LAST_VALUE(col,布尔值)


与 FIRST_VALUE() 函数相反,这里就不进行演示了。


over子句

官方 OVER子句 包括几个部分:

  • 聚合函数(count, sum, min, max, avg)
  • OVER 子句
  • PARTITION BY 子句
  • ORDER BY 子句
  • WINDOW 子句

结合具体的业务场景,SQL 语句如下:


---1)201504月份的销售额
select sum(amount) as total_amt
from order_window 
where substr(order_date,1,7)='2015-04'
;
---2)201504月份的订单明细与销售额
select user_name, order_date, amount
      ,sum(amount) over() as total_amt
from order_window
where substr(order_date,1,7)='2015-04'
;
---3)客户的订单明细与月购买金额
select user_name, order_date, amount
      ,sum(amount) over (partition by month(order_date)) month_amt
from order_window
;
---4)客户的订单明细与累计购买金额
select user_name, order_date, amount
      ,sum(amount) over (partition by month(order_date) order by order_date) month_add_amt
from order_window
;
---5)不同窗口的销售额
select 
     user_name
    ,order_date
    ,amount
    ,sum(amount) over() as sample1 --所有行相加
    ,sum(amount) over(partition by user_name) as sample2 --按name分组,组内数据相加
    ,sum(amount) over(partition by user_name order by order_date) as sample3 --按name分组,组内数据累加
    ,sum(amount) over(partition by user_name order by order_date rows between UNBOUNDED PRECEDING and current row) as sample4 --和sample3一样,由起点到当前行的聚合
    ,sum(amount) over(partition by user_name order by order_date rows between 1 PRECEDING and current row) as sample5 --当前行和前面一行做聚合
    ,sum(amount) over(partition by user_name order by order_date rows between 1 PRECEDING and 1 FOLLOWING) as sample6 --当前行和前边一行及后面一行
    ,sum(amount) over(partition by user_name order by order_date rows between current row and UNBOUNDED FOLLOWING) as sample7 --当前行及后面所有行
from order_window
;


windows子句


带有窗口规范的OVER子句。窗口可以在WINDOW子句中单独定义。窗口规范支持如下格式:


关键字说明PRECEDING表示当前行之前的行UNBOUNDED PRECEDING表示当前行之前无边界行,即第一行num PRECEDING表示当前行之前第num行CURRENT ROW表示当前行FOLLOWING表示当前行后面的行UNBOUNDED FOLLOWING表示当前行后面无边界行,即最后一行num FOLLOWING表示当前行后面第num行


当缺少WINDOW子句并指定使用ORDER BY时,窗口规范默认为RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW,即从第一行到当前行。

当缺少ORDER BY和WINDOW子句时,窗口规范默认为ROW BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING,即第一行到最后一行。


参考

  • Windowing and Analytics Functions
  • HiveQL的窗口函数

相关推荐

ES6中 Promise的使用场景?(es6promise用法例子)

一、介绍Promise,译为承诺,是异步编程的一种解决方案,比传统的解决方案(回调函数)更加合理和更加强大在以往我们如果处理多层异步操作,我们往往会像下面那样编写我们的代码doSomething(f...

JavaScript 对 Promise 并发的处理方法

Promise对象代表一个未来的值,它有三种状态:pending待定,这是Promise的初始状态,它可能成功,也可能失败,前途未卜fulfilled已完成,这是一种成功的状态,此时可以获取...

Promise的九大方法(promise的实例方法)

1、promise.resolv静态方法Promise.resolve(value)可以认为是newPromise方法的语法糖,比如Promise.resolve(42)可以认为是以下代码的语...

360前端一面~面试题解析(360前端开发面试题)

1.组件库按需加载怎么做的,具体打包配了什么-按需加载实现:借助打包工具(如Webpack的require.context或ES模块动态导入),在使用组件时才引入对应的代码。例如在V...

前端面试-Promise 的 finally 怎么实现的?如何在工作中使用?

Promise的finally方法是一个非常有用的工具,它无论Promise是成功(fulfilled)还是失败(rejected)都会执行,且不改变Promise的最终结果。它的实现原...

最简单手写Promise,30行代码理解Promise核心原理和发布订阅模式

看了全网手写Promise的,大部分对于新手还是比较难理解的,其中几个比较难的点:状态还未改变时通过发布订阅模式去收集事件实例化的时候通过调用构造函数里传出来的方法去修改类里面的状态,这个叫Re...

前端分享-Promise可以中途取消啦(promise可以取消吗)

传统Promise就像一台需要手动组装的设备,每次使用都要重新接线。而Promise.withResolvers的出现,相当于给开发者发了一个智能遥控器,可以随时随地控制异步操作。它解决了三大...

手写 Promise(手写输入法 中文)

前言都2020年了,Promise大家肯定都在用了,但是估计很多人对其原理还是一知半解,今天就让我们一起实现一个符合PromiseA+规范的Promise。附PromiseA+规范地址...

什么是 Promise.allSettled()!新手老手都要会?

Promise.allSettled()方法返回一个在所有给定的promise都已经fulfilled或rejected后的promise,并带有一个对象数组,每个对象表示对应的pr...

前端面试-关于Promise解析与高频面试题示范

Promise是啥,直接上图:Promise就是处理异步函数的API,它可以包裹一个异步函数,在异步函数完成时抛出完成状态,让代码结束远古时无限回掉的窘境。配合async/await语法糖,可...

宇宙厂:为什么前端离不开 Promise.withResolvers() ?

大家好,很高兴又见面了,我是"高级前端进阶",由我带着大家一起关注前端前沿、深入前端底层技术,大家一起进步,也欢迎大家关注、点赞、收藏、转发。1.为什么需要Promise.with...

Promise 新增了一个超实用的 API!

在JavaScript的世界里,Promise一直是处理异步操作的神器。而现在,随着ES2025的发布,Promise又迎来了一个超实用的新成员——Promise.try()!这个新方法简...

一次搞懂 Promise 异步处理(promise 异步顺序执行)

PromisePromise就像这个词的表面意识一样,表示一种承诺、许诺,会在后面给出一个结果,成功或者失败。现在已经成为了主流的异步编程的操作方式,写进了标准里面。状态Promise有且仅有...

Promise 核心机制详解(promise机制的实现原理)

一、Promise的核心状态机Promise本质上是一个状态机,其行为由内部状态严格管控。每个Promise实例在创建时处于Pending(等待)状态,此时异步操作尚未完成。当异步操作成功...

javascript——Promise(js实现promise)

1.PromiseES6开始支持,Promise对象用于一个异步操作的最终完成(包括成功和失败)及结果值的表示。简单说就是处理异步请求的。之所以叫Promise,就是我承诺,如果成功则怎么处理,失败怎...

取消回复欢迎 发表评论: