深入理解select count(*)底层究竟做了什么

发布时间：2019-06-12 16:54:38 所属栏目：MySql教程来源：Java技术架构

导读：SELECT COUNT( * ) FROM t是个再常见不过的 SQL 需求了。在 MySQL 的使用规范中，我们一般使用事务引擎 InnoDB 作为(一般业务)表的存储引擎，在此前提下，COUNT( * )操作的时间复杂度为 O(N)，其中 N 为表的行数。而 MyISAM 表中可以快速取到表的行数。这

正如我们如果用脚本/程序来进行逐行的扫表操作，实现上就会涉及下面 2 个 SQL：

// SELECT id FROM t LIMIT 1; OR SELECT MIN(id)-1 FROM t; -> $last_id// SELECT id FROM t WHERE id > $last_id LIMIT 1;

具体涉及到此例的代码，SQL 层到存储引擎层的调用关系，读取阶段的调用栈如下：(供参考)

深入理解select count(*)底层究竟做了什么

我们可以看到，无论是哪一个分支的读取，最终都殊途同归于 row_search_mvcc函数。

以上是对 LOOP 中的代码做一些简要的说明，下面来看 row_search_mvcc与 evaluate_join_record 如何输出最终的 count 结果。

2.3 行可见性及 row_search_mvcc 函数

这里我们主要通过一组 case 和几个问题来看行可见性对 COUNT( * ) 的影响。

深入理解select count(*)底层究竟做了什么

Q：对于SELECT COUNT( * ) FROM t或者SELECT MIN(id) FROM t操作，第一次的读行操作读到的是表 t 中 ( B+ 树最左叶节点 page 内 ) 的最小记录吗?( ha_index_first 为何也调用 row_search_mvcc 来获取最小 key 值?)

A：不一定。即使是MIN ( id ) 也不一定就读取的是 id 最小的那一行，因为也同样有行可见性的问题，实际上 index_read 取到的是当前事务内语句可见的最小 index 记录。这也反映了前面提到的 join_read_first 与 join_read_next “殊途同归”到 row_search_mvcc 是理所应当的。

Q：针对图中最后一问，如果事务 X 是 RU ( Read-Uncommitted ) 隔离级别，且 C-Insert ( 100 ) 的完成是在 X-count( * )执行过程中 ( 仅扫描到 5 或 10 这条记录 ) 完成的，那么 X-count( * ) 在事务 C-Insert ( 100 ) 完成后，能否在之后的读取过程中看到 100 这条记录呢?

A：MySQL 采取”读到什么就是什么”的策略，即X-count( * )在后面可以读到 100 这条记录。

2.4 evaluate_join_record 与列是否为空

Q：某一行如何计入 count?

A：两种情况会将所读的行计入 count:

1、如果 COUNT 函数中的参数是某列，则会判断所读行中该列定义是否 Nullable以及该列的值是否为 NULL;若两者均为是，则不会计入 count，否则将计入 count。

e.g. SELECT COUNT(col_name) FROM t
col_name可以是主键、唯一键、非唯一键、非索引字段

2、如果 COUNT 中带有 * ，则会判断这部分的整行是否为 NULL，如果判断参数为 NULL，则忽略该行，否则 count++。

e.g-1. SELECT COUNT(*) FROM t
e.g-2. SELECT COUNT(B.*) FROM A LEFT JOIN B ON A.id = B.id

Q：特别地，对于 SELECT COUNT(id) FROM t，其中 id 字段是表 t 的主键，则如何?

A：效果上等价于 COUNT( * )。因为无论是 COUNT( * )，还是 COUNT ( pk_col ) 都是因为有主键从而充分断定索取数据不为 NULL，这类 COUNT 表达式可以用于获取当前可见的表行数。

Q：用户层面对 InnoDB COUNT( * ) 的优化操作问题

A：这个问题是业界熟悉的一个问题，扫描非空唯一键可得到表行数，但所涉及的字节数可能会少很多(在表的行长与主键、唯一键的长度相差较多时)，相对的 IO 代价小很多。

MySQL源码安置	MySQL自增列主从不一致
数据库设计的主要过程	mysql company