left join 和 left semi join区别

左连接与+号，就是左边的表数据都要。select * from a,b where a.id=b.id(+);(+)写在where后面,不能与or/in连用,uiselect * from a left join b on a.id=b.id;a里面的数据在b里面没有也要的left join 和 left semi join区别：left join A表记录全部有，如果B表多行的话，A数

jnrjian

6391人浏览 · 2022-03-27 03:32:28

jnrjian · 2022-03-27 03:32:28 发布

左连接与+号，就是左边的表数据都要。

select * from a,b where a.id=b.id(+);

(+)写在where后面,不能与or/in连用,ui

select * from a left join b on a.id=b.id; a里面的数据在b里面没有也要的

left join 和 left semi join区别：

left join A表记录全部有，如果B表多行的话，A数据就被重复了一次。

left semi join不重复，找到第一条就返回A行记录，如果找不到A行记录不显示。就是exists或者 in的意思。

1、联系

他们都是 hive join 方式的一种，join on 属于 common join（shuffle join/reduce join），而 left semi join 则属于 map join（broadcast join）的一种变体，从名字可以看出他们的实现原理有差异。

2、区别

（1）Semi Join，也叫半连接，是从分布式数据库中借鉴过来的方法。它的产生动机是：对于reduce side join，跨机器的数据传输量非常大，这成了join操作的一个瓶颈，如果能够在map端过滤掉不会参加join操作的数据，则可以大大节省网络IO，提升执行效率。
实现方法很简单：选取一个小表，假设是File1，将其参与join的key抽取出来，保存到文件File3中，File3文件一般很小，可以放到内存中。在map阶段，使用DistributedCache将File3复制到各个TaskTracker上，然后将File2中不在File3中的key对应的记录过滤掉，剩下的reduce阶段的工作与reduce side join相同。
由于 hive 中没有 in/exist 这样的子句（新版将支持），所以需要将这种类型的子句转成 left semi join。left semi join 是只传递表的 join key 给 map 阶段 , 如果 key 足够小还是执行 map join, 如果不是则还是 common join。关于 common join（shuffle join/reduce join）的原理请参考文末 refer。

（2）left semi join 子句中右边的表只能在 ON 子句中设置过滤条件，在 WHERE 子句、SELECT 子句或其他地方过滤都不行。

（3）对待右表中重复key的处理方式差异：因为 left semi join 是 in(keySet) 的关系，遇到右表重复记录，左表会跳过，而 join on 则会一直遍历。

最后的结果是这会造成性能，以及 join 结果上的差异。

（4）left semi join 中最后 select 的结果只许出现左表，因为右表只有 join key 参与关联计算了，而 join on 默认是整个关系模型都参与计算了。

3、两种 join 的“坑”

由于HIVE中都是等值连接，在JOIN使用的时候，有两种写法在理论上是可以达到相同的效果的，但是由于实际情况的不一样，子表中数据的差异导致结果也不太一样。

写法一： left semi join

select

a.bucket_id,

a.search_type,

a.level1,

a.name1,

a.level2,

a.name2,

cast((a.alipay_fee) as double) as zhuliu_alipay,

cast(0 as double) as total_alipay

from tmall_data_fdi_search_zhuliu_alipay_cocerage_bucket_1 a

left semi join

tmall_data_fdi_dim_main_auc b

on (a.level2 = b.cat_id2

and a.brand_id = b.brand_id

and b.cat_id2 > 0

and b.brand_id > 0

and b.max_price = 0

)

结果是 3121 条

写法二： join on