SQL查询优化技巧

查询优化的本质是让数据库优化器为SQL语句选择最佳的执行计划。一般来说，对于在线交易处理（OLTP）系统的数据库，减少数据库磁盘I/O是SQL语句性能优化的首要方法，因为磁盘访问通常是数据库性能的瓶颈所在。另外，我们还需要考虑降低CPU和内存的消耗。例如DISTINCT、GROUP BY、ORDER BY等操作都会涉及CPU运算，需要占用内存或者使用临时磁盘文件，这些都是我们优化的目标。创建合适的

梁萌

5626人浏览 · 2022-04-23 11:54:51

梁萌 · 2022-04-23 11:54:51 发布

查询优化的本质是让数据库优化器为SQL语句选择最佳的执行计划。一般来说，对于在线交易处理（OLTP）系统的数据库，减少数据库磁盘I/O是SQL语句性能优化的首要方法，因为磁盘访问通常是数据库性能的瓶颈所在。

另外，我们还需要考虑降低CPU和内存的消耗。例如DISTINCT、GROUP BY、ORDER BY等操作都会涉及CPU运算，需要占用内存或者使用临时磁盘文件，这些都是我们优化的目标。

创建合适的索引

索引是优化查询性能的重要方法，因此我们首先需要了解哪些字段适合创建索引：

基于经常出现在WHERE条件中的字段建立索引，可以避免全表扫描。
基于多表连接查询的关联字段（通常是外键）建立索引，可以提高连接查询的性能。
将GROUP BY分组字段加入索引中，可以利用索引实现分组。
将ORDER BY排序字段加入索引中，可以避免额外的排序操作。

另外，我们在创建索引时尽量选择区分度高的字段，比如手机号、姓名等。“性别”这种重复性极高的字段不适合单独创建索引，必要时可以考虑和其他字段一起创建复合索引。

对于复合索引，查询条件中最常出现的字段应该放在索引的最左边，这被称为复合索引最左前缀原则，例如：

--创建表
CREATE TABLE test(
  id number not null,
  col1 number,
  col2 number,
  col3 varchar2(100),
  PRIMARY KEY (id)
);

--利用递归往表中插入1000条记录
INSERT INTO test
WITH t (id,c1,c2,c3) AS (
   SELECT 1 id,1 c1,1 c2,1 c3 FROM dual
   
   UNION ALL
   
   SELECT id+1,c1+1,c2+2,c3+3 FROM t
   WHERE id<1000
)
SELECT * FROM t;

我们首先创建了一个测试表test，然后利用一个递归通用表表达式插入了1000行数据。

假如我们经常同时使用col1和col2字段作为查询条件，另外也会单独使用col2字段作为查询条件，可以创建以下复合索引：

CREATE INDEX idx_test
ON test(col2,col1);

其中col2字段在前，col1字段在后。下面以Oracle数据库为例，查看这两种查询条件下的执行计划：

执行计划显示，在这两种情况下，均可以通过索引idx_test查找数据。

如果我们需要单独使用col1字段作为查询条件，则通过全表扫描来查找数据。

另外，我们还需要了解一些不适合创建索引的情况。

例如，频繁更新的字段不适合创建索引，因为更新索引也需要付出代价。表中的数据量很少时无须创建索引，因为在这种情况下全表扫描可能更快。

最后，对于大文本数据的检索可以考虑使用全文搜索技术。

避免索引失效

虽然我们已经创建了合适的索引，但是如果查询语句中的WHERE子句编写不当，仍然可能会导致数据库无法使用索引。

首先，在查询条件中对索引字段进行运算或者使用函数都会导致索引失效，例如：

查询条件中的UPPER函数会导致索引失效，因为索引中并没有存储大写形式的email。

其次，我们在使用LIKE运算符进行匹配时，如果通配符出现在左侧，也会导致索引失效，例如：

以上语句将会使用全表扫描的方式来查找数据，只有匹配模式左侧是确定的内容（比如“张%”）时，才可能会使用索引查找数据。

如果业务需求中确实存在这类模糊匹配，我们可以考虑使用全文索引或者专门的全文搜索引擎。

如果我们在某个字段上创建了索引，则应该尽量将其设置为NOT NULL。这是因为不是所有的数据库在使用IS [NOT] NULL运算符时，都会通过索引查找数据。

以下是一个Oracle示例：

Oracle不会针对索引字段为NULL的数据进行索引，因此该查询使用了全表扫描。

另外，在之前的文章中介绍了NULL值可能导致的各种问题。因此，建议将索引字段设置为NOT NULL，并且为其指定一个特殊的默认值来表示缺失值。

只返回需要的结果

SELECT*表示查询表中的全部字段，这种写法通常会返回不必要的字段，从而影响查询的性能。

这是因为数据库需要读取更多的数据，同时需要通过网络传输更多的数据，而客户端可能并不需要这些信息。

以下是一个Oracle示例：

第一个查询语句需要返回所有的字段，使用了全表扫描。

第二个查询只需返回员工的姓名，通过扫描索引 idx_emp_name就可以得到查询结果，甚至不用访问表。

因此，我们在开发和测试过程中可以使用SELECT*这种方式快速编写查询，但是在实际应用中应该严格控制只返回业务需要的字段。

优化多表连接

连接查询首先需要避免缺少连接条件导致的笛卡儿积，因为这是非常消耗资源的操作。

对于连接查询中使用的关联字段，我们应该确保它们的数据类型和字符集相同，并且创建了合适的索引。

对于多表连接查询，数据库的实现算法通常有以下三种。

嵌套循环连接（Nested Loop Join）：针对驱动表（外表）中的每条记录，遍历另一个表并找到匹配的数据，相当于两层FOR循环。这种方式适用于驱动表数据比较少，并且连接表中有索引的情况。
哈希连接（Hash Join）：将其中一个表的连接字段计算出一个哈希表，然后从另一个表中一次获取记录并计算哈希值，根据两个哈希值来匹配符合条件的记录。这种方式在数据量大且没有创建索引的情况下的性能可能更好。
排序合并连接（Sort Merge Join）：首先将两个表中的数据基于连接字段分别进行排序，然后合并排序后的结果。这种方式通常用于没有创建索引，并且数据已经排序的情况。

数据库优化器选择哪种算法取决于许多因素，比如表中的数据量、关联字段是否已经排序或者创建索引等。

一般连接查询的表较少时，优化器可以自行选择合适的实现方法。当复杂查询性能不够理想时，我们可以通过执行计划来查看是否需要采用创建索引、调整多表连接的顺序或者指定连接方法等进行优化。

另外，还有一种优化连接查询的方法，就是通过增加冗余字段来减少连接查询的数量。