SQL中去重的三种方式
SQL去重是数据分析工作中比较常见的一个场景;在MySQL中通常是使用distinct或groupby子句,但在支持窗口函数的sql(如HiveSQL、Oracle等等)中还可以使用row_number窗口函数进行去重。
·
SQL去重是数据分析工作中比较常见的一个场景;
在 MySQL 中通常是使用 distinct 或 group by子句,但在支持窗口函数的 sql(如Hive SQL、Oracle等等) 中还可以使用 row_number 窗口函数进行去重。
需求: 统计 emp表中的员工数据中共有多少个部门 ?
1. distinct
select count(DISTINCT deptno ) from emp;
distinct 通常效率较低。它不适合用来展示去重后具体的值,一般与 count 配合用来计算条数。
注: distinct前面不能再有其他字段!
错误用法: SELECT ename , DISTINCT deptno FROM emp;
2. group by
select count(deptno) from
(select deptno from emp group by deptno)q;
3. row_number
使用ROW_NUMBER 记录每个partition内的排序,再用sum 记录排序中为1的,即为deptno的数量’
select sum( if(r =1,1,0) ) from
( select row_number() over(partition by deptno)as r from emp)q;
或者
select sum( case when r=1 then 1 else 0 end ) from
( select row_number() over(partition by deptno )as r from emp)q;
参考:https://blog.csdn.net/xienan_ds_zj/article/details/103869048
更多推荐
已为社区贡献1条内容
所有评论(0)