不看后悔的腾讯面试题：SQL语句为什么执行的很慢？

发布时间：2019-05-28 06:42:14 所属栏目：评测来源：帅地

导读：说实话，这个问题可以涉及到 MySQL 的很多核心知识，可以扯出一大堆，就像要考你计算机网络的知识时，问你输入URL回车之后，究竟发生了什么一样，看看你能说出多少了。之前腾讯面试的实话，也问到这个问题了，不过答的很不好，之前没去想过相关原因，导致

如果是扫描全表的话，那么扫描的次数就是这个表的总行数了，假设为 n;而如果走索引 c 的话，我们通过索引 c 找到主键之后，还得再通过主键索引来找我们整行的数据，也就是说，需要走两次索引。而且，我们也不知道符合 100 c < and c < 10000 这个条件的数据有多少行，万一这个表是全部数据都符合呢?这个时候意味着，走 c 索引不仅扫描的行数是 n，同时还得每行数据走两次索引。

所以呢，系统是有可能走全表扫描而不走索引的。

那系统是怎么判断呢?

判断来源于系统的预测，也就是说，如果要走 c 字段索引的话，系统会预测走 c 字段索引大概需要扫描多少行。如果预测到要扫描的行数很多，它可能就不走索引而直接扫描全表了。

那么问题来了，系统是怎么预测判断的呢?这里我给你讲下系统是怎么判断的吧，虽然这个时候我已经写到脖子有点酸了。

系统是通过索引的区分度来判断的，一个索引上不同的值越多，意味着出现相同数值的索引越少，意味着索引的区分度越高。我们也把区分度称之为基数，即区分度越高，基数越大。所以呢，基数越大，意味着符合 100 < c and c < 10000 这个条件的行数越少。

所以呢，一个索引的基数越大，意味着走索引查询越有优势。

那么问题来了，怎么知道这个索引的基数呢?

系统当然是不会遍历全部来获得一个索引的基数的，代价太大了，索引系统是通过遍历部分数据，也就是通过采样的方式，来预测索引的基数的。

扯了这么多，重点的来了：

既然是采样，那就有可能出现失误的情况，也就是说，c 这个索引的基数实际上是很大的，但是采样的时候，却很不幸，把这个索引的基数预测成很小。例如你采样的那一部分数据刚好基数很小，然后就误以为索引的基数很小。然后就呵呵，系统就不走 c 索引了，直接走全部扫描了。

所以呢，说了这么多，得出结论：由于统计的失误，导致系统没有走索引，而是走了全表扫描，而这，也是导致我们 SQL 语句执行的很慢的原因。

这里我声明一下，系统判断是否走索引，扫描行数的预测其实只是原因之一，这条查询语句是否需要使用使用临时表、是否需要排序等也是会影响系统的选择的。

不过呢，我们有时候也可以通过强制走索引的方式来查询，例如：

select * from t force index(a) where c < 100 and c < 100000;

我们也可以通过：

show index from t;

来查询索引的基数和实际是否符合，如果和实际很不符合的话，我们可以重新来统计索引的基数，可以用这条命令：

analyze table t;

来重新统计分析。

既然会预测错索引的基数，这也意味着，当我们的查询语句有多个索引的时候，系统有可能也会选错索引哦，这也可能是 SQL 执行的很慢的一个原因。

好吧，就先扯这么多了，你到时候能扯出这么多，我觉得已经很棒了，下面做一个总结。

三、总结

以上是我的总结与理解，最后一个部分，我怕很多人不大懂数据库居然会选错索引，所以我详细解释了一下，下面我对以上做一个总结。

一个 SQL 执行的很慢，我们要分两种情况讨论：

大多数情况下很正常，偶尔很慢，则有如下原因：

数据库在刷新脏页，例如 redo log 写满了需要同步到磁盘。
执行的时候，遇到锁，如表锁、行锁。

这条 SQL 语句一直执行的很慢，则有如下原因：

没有用上索引：例如该字段没有索引;由于对字段进行运算、函数操作导致无法用索引。
数据库选错了索引。

作者介绍

帅地，订阅号「苦逼的码农」作者，专注于计算机基础、数据结构与算法、Java等领域。

【编辑推荐】

我在阿里做技术面试官的一些经验
我去面试Python岗位了
包装严重的IT行业，作为面试官，我是如何甄别应聘者的包装程度
面试陷阱：数十亿级别数据下，如何提高ES查询效率？
阿里面试，我挂在了第四轮……

【责任编辑：未丽燕 TEL：（010）68476606】
点赞 0

（编辑：晋中站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

TRX40主板首测为64核	搭载第3代骁龙8cx的骁
iQOO Z5x续航快充检测	拥抱无损网络 ODCC开展