SQL去重是数据分析工作中比较常见的一个场景;
在 MySQL 中通常是使用 distinct 或 group by子句,但在支持窗口函数的 sql(如Hive SQL、Oracle等等) 中还可以使用 row_number 窗口函数进行去重。

在这里插入图片描述

需求: 统计 emp表中的员工数据中共有多少个部门 ?

1. distinct

select count(DISTINCT deptno ) from emp;

distinct 通常效率较低。它不适合用来展示去重后具体的值,一般与 count 配合用来计算条数。

注: distinct前面不能再有其他字段! 
错误用法SELECT ename , DISTINCT deptno FROM emp;

2. group by

select count(deptno) from 
(select deptno from emp group by deptno)q;

3. row_number

使用ROW_NUMBER 记录每个partition内的排序,再用sum 记录排序中为1的,即为deptno的数量’

select sum( if(r =1,1,0) ) from 
( select row_number() over(partition by deptno)as r from emp)q;

或者

 select sum( case when r=1 then 1 else 0 end ) from 
 ( select row_number() over(partition by deptno )as r from emp)q;

参考:https://blog.csdn.net/xienan_ds_zj/article/details/103869048

Logo

为开发者提供学习成长、分享交流、生态实践、资源工具等服务,帮助开发者快速成长。

更多推荐