浅析MySQL多次查询和关联查询的效率问题

自高性能MySQL：一、MySQL多表关联查询效率高点还是多次单表查询效率高，为什么？　　A、B两个表数据规模十几万，数据规模都不大，单机MySQL够用了，在单机的基础上要关联两表的数据。　　先说一个极端情况，A、B两个表都没有索引，并且关联是笛卡尔积，那关联结果会爆炸式增长，可能到亿级别，这个时候网络IO成了瓶颈，这个时候两次十万行结果集的拉取可能远小于1次亿级别的结果集的拉取。　　那么将关联合

处静息迹

23533人浏览 · 2021-10-21 10:35:13

处静息迹 · 2021-10-21 10:35:13 发布

自高性能MySQL：

一、MySQL多表关联查询效率高点还是多次单表查询效率高，为什么？

　　A、B两个表数据规模十几万，数据规模都不大，单机MySQL够用了，在单机的基础上要关联两表的数据。

　　先说一个极端情况，A、B两个表都没有索引，并且关联是笛卡尔积，那关联结果会爆炸式增长，可能到亿级别，这个时候网络IO成了瓶颈，这个时候两次十万行结果集的拉取可能远小于1次亿级别的结果集的拉取。

　　那么将关联合并拉到 service 层做更快。

　　但实际业务中一般不会有这么蠢的行为，一般关联会有连接条件，并且连接条件上会有索引，一般是有一个结果集比较小，拿到这个结果集去另一张表去关联出其它信息。

　　如果放到service层去做，最快的方式是，先查A表，得到一个小的结果集，一次 rpc，再根据结果集，拼凑出B表的查询条件，去B表查到一个结果集，再一次rpc，再把结果集拉回service层，再一次rpc，然后service层做合并。

　　3次 rpc，如果用数据库的 join，关联结果拉回来，一次 rpc，帮你省了两次 rpc，当然数据库上做关联更快，对应到数据库就是一次 blk nested loop join，这是业务常用情况。

　　但是确实大多数业务都会考虑把这种合并操作放到service层，我觉得有几方面考虑：

　　第一：单机数据库计算资源很贵，数据库同时要服务写和读，都需要消耗 CPU，为了能让数据库的吞吐变得更高，而业务又不在乎那几百微妙到毫秒级的延时差距，业务会把更多计算放到 service 层做，毕竟计算资源很好水平扩展，数据库很难啊，所以大多数业务会把纯计算操作放到service层做，而将数据库当成一种带事务能力的 kv 系统来使用，这是一种重业务，轻DB的架构思路 。

　　第二：很多复杂的业务可能会由于发展的历史原因，一般不会只用一种数据库，一般会在多个数据库上加一层中间件，多个数据库之间还能做毛的 join，自然业务会抽象出一个service层，降低对数据库的耦合。

　　第三：对于一些大型公司由于数据规模庞大，不得不对数据库进行分库分表，这个问题在《阿里为什么要禁用三表以上的join》上也有描述：对于分库分表的应用，使用 join 也受到了很多限制，除非业务能够很好的根据 sharding key 明确要 join 的两个表在同一个物理库中，而中间件一般对跨库 join 都支持不好。

　　举一个很常见的业务例子，在分库分表中，要同步更新两个表，这两个表位于不同的物理库中，为了保证数据一致性，一种做法是通过分布式事务中间件将两个更新操作放到一个事务中，但这样的操作一般要加全局锁，性能很捉急，而有些业务能够容忍短暂的数据不一致，怎么做？让它们分别更新呗，但是会存在数据写失败的问题，那就起个定时任务，扫描下A表有没有失败的行，然后看看B表是不是也没写成功，然后对这两条关联记录做订正，这个时候同样没法用join去实现，只能将数据拉到service层应用自己来合并了。

　　补充一下：使用join未必效率全低，曾遇到的一个慢sql调优，为方便简单写：

// 步骤1

select tableA.id as ids from tableA where age>20;

// 步骤二，使用上一步的查询结果：

select tableB.score from tableB where id in (ids);

// 这是一个很常见的查询，步骤一和步骤二，相当于

select tableB.score from tableB inner join tableA on tableA.id=tableB.id;

// 这个效率谁高，看具体情况了。最后测试结果是inner join的效率高。