MySQL事务
前言
通过这篇文章你能学到:
ACID、隔离级别、不同隔离级别的问题、MVCC、commit work and chain的语法、事务的启动方式、长事务的危害、如何避免长事务
一、事务是什么?
简单来说,事务是数据库中执行事件的最小单位,要保证一组数据库操作,要么全部成功,要么全部失败。
二、事物操作数据库的四大特性(ACID)
1.原子性 (Atomicity)
原子性:就是事物的所包含的所有操作,要么全部成功,要么全部失败回滚。
2.一致性 (Consistency)
事务执行的结果必须是使数据库从一个一致性状态变到另一个一致性状态。
一致性是指当事务完成时,必须使所有数据都具有一致的状态。在关系型数据库中,所有的规则必须应用到事务的修改上,以便维护所有数据的完整性。
一致性:简单来说就是在事物执行前和执行后,必须保持数据的一致。
举个例子:A和B之间进行转账,A和B的钱加起来一种是2000块钱,那么无论他们之间 进行了多少次的转账操作,最后的钱数加起来应该还是等于2000。
3.隔离性 (Isolation)
隔离性:一个事物执行的过程当中,不能被其他的事物干扰。MySQL的隔离性主要由锁加MVCC实现。
锁:比如有事物A和事物B,相对于A来说,你B想要执行,要么在我执行之前执行,要么在我执行完毕之后,你再开始执行。
MVCC:多版本并发控制,事务读到的数据总是以自己事务开始时为准,除非是自己对数据做了操作;否则别人的操作对我不可见。
4. 持久性 (Durability)
持久性:事物被提交之后,应被永久的存储到了数据库当中。一经提交,永久有效,不用担心数据的丢失问题。
MySQL数据库的四种隔离级别**
1、 Serializable (串行化):可避免脏读、不可重读读、幻读的发生
2、 Repeatable read (可重复读):可避免脏读、不可重复读的发生。
3、 Read committed (读已提交):可避免脏读的发生。
4、 Read uncommitted (读未提交):最低级别,任何情况都无法保证。
以上四种的隔离级别最高的Serializable,最低的是Read uncommitted,级别越高,虽然安全级别越高,但是执行的效率就越低,MySQL中默认的隔离级别是:Repeatable read(可重复读),oracle默认的隔离级别是:Read committed(读已提交)。
这里需要注意的是,mysql支持以上四种隔离级别,但是oracle只支持Serializable(串行化)和Read committed(读已提交)这两种隔离级别。
-- 查看当前事务隔离级别(别忘了@@) SELECT @@tx_isolation; -- 设置mysql当前隔离级别(别忘了'') SET tx_isolation='REPEATABLE-READ';
MySQL中查看当前的事物隔离界别
设置mysql的隔离级别
记住:设置数据库的隔离级别一定要是在开启事物之前!
隔离级别的设置只对当前的链接有效。对于MySQL窗口来说,一个窗口就是一个链接,当前设置的事物隔离级别只对当前的窗口有效。tx表示事务,isolation表示隔离。
一. read uncommitted(读取未提交数据)
具体用户A的操作如下:
set session transaction isolation level read uncommitted; start transaction; select * from account;
结果如下:
数据
用户B的操作如下:
set session transaction isolation level read uncommitted; start transaction; update account set account=account+200 where id = 1;
随后我们在A用户中查询数据,结果如下:
uncommittedA数据
结论一:
我们将事务隔离级别设置为read uncommitted,即便是事务没有commit,但是我们仍然能读到未提交的数据,这是所有隔离级别中最低的一种。
那么这么做有什么问题吗?
那就是我们在一个事务中可以随随便便读取到其他事务未提交的数据,这还是比较麻烦的,我们叫脏读。
为什么叫脏读?因为未提交的数据可能不会成功提交,比如事务执行失败回滚;而此时你却以为自己获得了一个正确的值返回给了客户。
加强记忆:A都还没写完,B就迫不及待取走了,墨都没干,脏了一身。
实际上我们的数据改变了吗?
答案是否定的,因为只有事务commit后才会更新到数据库。
二. read committed(可以读取其他事务提交的数据)---大多数数据库默认的隔离级别
同样的办法,我们将用户B所在的会话当前事务隔离级别设置为read commited。
在用户A所在的会话中我们执行下面操作:
update account set account=account-200 where id=1;
read committed
我们将id=1的用户account减200。然后查询,发现id=1的用户account变为800。
在B用户所在的会话中查询:
select * from account;
结果如下:
read committedB
我们会发现数据并没有变,还是1000。
接着在会话A中我们将事务提交:
commit;
在会话B中查询结果如下:
read committedB1
结论二:
当我们将当前会话的隔离级别设置为read committed的时候,当前会话只能读取到其他事务提交的数据,未提交的数据读不到。
那么这么做有什么问题吗?
那就是我们在会话B同一个事务中,读取到两次不同的结果。这就造成了不可重复读,就是两次读取的结果不同。这种现象叫不可重复读。
三. repeatable read(可重读)---MySQL默认的隔离级别
现在有个需求,就是老板说在同一个事务中查询结果必须保持一致,如果你是数据库,你会怎么做?数据库是这么做的。
在会话B中我们当前事务隔离级别为repeatable read。具体操作如下:
set session transaction isolation level repeatable read; start transaction;
接着在会话B中查询数据:
repeatablereadB1
我们在A用户所在会话中为表account添加一条数据:
insert into account(id,account) value(3,1000); commit;
然后我们查询看数据插入是否成功:
repeatable readA
回到B用户所在的会话,我们查询结果:
repeatablereadB2
用户B在他所在的会话中想插入一条新数据id=3,value=1000。来我们操作下:
readpeatablereadB3
什么?竟然插不进去,说我数据重复?
用户B当然不服啊,因为查询到数据只有两条啊,为什么插入id=3说我数据重复了呢?
我再看一遍,莫非我眼花了?
repeatablereadB2
试想一下,在实际中用户A和用户B肯定是相互隔离的,彼此不知道操作什么。用户B碰到这种现象,肯定会炸毛的啊,明明不存在的数据,插入却说主键id=3数据重复了。
结论三:
当我们将当前会话的隔离级别设置为repeatable read的时候,当前会话可以重复读,就是每次读取的结果集都相同,而不管其他事务有没有提交。
有什么问题吗?
管他呢,老板的要求满足了。要一个事务中读取的数据一致(可重复读)。我只能这么做啊,打肿脸装胖子。数据已经发生改变,但是我还是要保持一致。但是,出现了用户B面对的问题,这种现象叫幻读(记得当时就在这个地方纠结好久,到底什么是幻读啊)。
四. serializable(串行化)
同样,我们将用户B所在的会话的事务隔离级别设置为serializable并开启事务。
set session transaction isolation level serializable; start transaction;
在用户B所在的会话中我们执行下面操作:
select * from account;
结果如下:
serializableA
那我们这个时候在用户A所在的会话中写数据呢?
readcommittedA1
我们发现用户A所在的会话陷入等待,如果超时(这个时间可以进行配置),会出现Lock wait time out提示:
readcommittedA2
如果在等待期间我们用户B所在的会话事务提交,那么用户A所在的事务的写操作将提示操作成功。
结论四:
当我们将当前会话的隔离级别设置为serializable的时候,其他会话对该表的写操作将被挂起。可以看到,这是隔离级别中最严格的,但是这样做势必对性能造成影响。所以在实际的选用上,我们要根据当前具体的情况选用合适的。
总结不考虑事物的隔离性所引发的问题
1. 脏读
一个事物读取到了一个未提交的事物的数据。
2. 不可重复读
在读取数据库的某条数据的时候返回了不同的值,造成这个结果的原因是因为我们在查询了一次之后准备进行第二次查询的这个间隔之间,对我们要进行查询的这条数据进行了修改操作,从而导致两次读取的数据不一致。
脏读和不可重复读的区别:
脏读是一个事物读取到了一个未提交事物的脏数据,而不可重复读是一个数据读取了一个已经提交了的事物的数据。
3. 幻读(虚读)
出现幻读举例:事物A想要对一张表中的某一字段的值进行修改,假设有一个字段的值全部为1,事物A现在想要将1全部修改为2,在提交事物之后,事物B接着又进行了一个操作,在这张表中添加了一个字段,值全部为1。那么这时候操作事物A的用户在查看的时候,会发现还有一行数据没有进行修改,其实这是事物B在他查看之前添加的。
幻读和不可重复读都是读取了一个已经提交的事物,不同的是不可重复读查询的是修改的数据,而幻读查询的是批量插入数据。,而脏读是读取了一个未提交的事物。
用一个例子说明这几种隔离级别。假设数据表T中只有一列,其中一行的值为1,下面是按照时间顺序执行两个事务的行为。
mysql> create table T(c int) engine=InnoDB; insert into T(c) values(1);
我们来看看在不同的隔离级别下,事务A会有哪些不同的返回结果,也就是图里面V1、V2、V3的返回值分别是什么。
- 若隔离级别是“读未提交”, 则V1的值就是2。这时候事务B虽然还没有提交,但是结果已经被A看到了。因此,V2、V3也都是2。
- 若隔离级别是“读提交”,则V1是1,V2的值是2。事务B的更新在提交后才能被A看到。所以, V3的值也是2。
- 若隔离级别是“可重复读”,则V1、V2是1,V3是2。之所以V2还是1,遵循的就是这个要求:事务在执行期间看到的数据前后必须是一致的。
- 若隔离级别是“串行化”,则在事务B执行“将1改成2”的时候,会被锁住。直到事务A提交后,事务B才可以继续执行。所以从A的角度看, V1、V2值是1,V3的值是2。
隔离级别与视图的关系
在实现上,数据库里面会创建一个视图,访问的时候以视图的逻辑结果为准。
1、“读未提交”隔离级别下直接返回记录上的最新值,没有视图概念;
2、“读提交”隔离级别下,这个视图是在每个SQL语句开始执行的时候创建的。
3、在“可重复读”隔离级别下,这个视图是在事务启动时创建的,整个事务存在期间都用这个视图。MySQL默认可重复读级别。
4、“串行化”隔离级别下直接用加锁的方式来避免并行访问。
MySQL与其他数据库迁移注意
我们可以看到在不同的隔离级别下,数据库行为是有所不同的。Oracle数据库的默认隔离级别其实就是“读提交”,因此对于一些从Oracle迁移到MySQL的应用,为保证数据库隔离级别的一致,你一定要记得将MySQL的隔离级别设置为“读提交”。
事务隔离的实现
理解了事务的隔离级别,我们再来看看事务隔离具体是怎么实现的。这里我们展开说明“可重复读”。
在MySQL中,实际上每条记录在更新的时候都会同时记录一条回滚操作。记录上的最新值,通过回滚操作,都可以得到前一个状态的值。
假设一个值从1被按顺序改成了2、3、4,在回滚日志里面就会有类似下面的记录。
多版本并发控制(MVCC)
当前值是4,但是在查询这条记录的时候,不同时刻启动的事务会有不同的read-view。如图中看到的,在视图A、B、C里面,这一个记录的值分别是1、2、4,同一条记录在系统中可以存在多个版本,就是数据库的多版本并发控制(MVCC)。对于read-view A,要得到1,就必须将当前值依次执行图中所有的回滚操作得到。
同时你会发现,即使现在有另外一个事务正在将4改成5,这个事务跟read-view A、B、C对应的事务是不会冲突的。
为什么尽量不要使用长事务
1、大量占用存储空间
2、占用锁资源
长事务意味着系统里面会存在很老的事务视图。由于这些事务随时可能访问数据库里面的任何数据,所以这个事务提交之前,数据库里面它可能用到的回滚记录都必须保留,这就会导致大量占用存储空间。
在MySQL 5.5及以前的版本,回滚日志是跟数据字典一起放在ibdata文件里的,即使长事务最终提交,回滚段被清理,文件也不会变小。前人实例:数据只有20GB,而库的回滚段有200GB。最终只好为了清理回滚段,重建整个库。
除了对回滚段的影响,长事务还占用锁资源,也可能拖垮整个库。
事务的启动方式
MySQL的事务启动方式有以下几种:
- 显式启动事务语句, begin 或 start transaction。配套的提交语句是commit,回滚语句是rollback。
- set autocommit=0,这个命令会将这个线程的自动提交关掉。意味着如果你只执行一个select语句,这个事务就启动了,而且并不会自动提交。这个事务持续存在直到你主动执行commit 或 rollback 语句,或者断开连接。
有些客户端连接框架会默认连接成功后先执行一个set autocommit=0的命令。这就导致接下来的查询都在事务中,如果是长连接,就导致了意外的长事务。
因此,我会建议你总是使用set autocommit=1, 通过显式语句的方式来启动事务。
“多一次交互”的问题
对于一个需要频繁使用事务的业务,第二种方式每个事务在开始时都不需要主动执行一次 “begin”,减少了语句的交互次数。如果你也有这个顾虑,我建议你使用commit work and chain语法。
在autocommit为1的情况下,用begin显式启动的事务,如果执行commit则提交事务。如果执行 commit work and chain,则是提交事务并自动启动下一个事务,这样也省去了再次执行begin语句的开销。同时带来的好处是从程序开发的角度明确地知道每个语句是否处于事务中。
查询长事务
你可以在information_schema库的innodb_trx这个表中查询长事务,
比如下面这个语句,用于查找持续时间超过60s的事务。
select * from information_schema.innodb_trx where TIME_TO_SEC(timediff(now(),trx_started))>60
如何避免长事务对业务的影响?
这个问题,我们可以从应用开发端和数据库端来看。
首先,从应用开发端来看:
- 确认是否使用了set autocommit=0。这个确认工作可以在测试环境中开展,把MySQL的general_log开起来,然后随便跑一个业务逻辑,通过general_log的日志来确认。一般框架如果会设置这个值,也就会提供参数来控制行为,你的目标就是把它改成1。
- 确认是否有不必要的只读事务。有些框架会习惯不管什么语句先用begin/commit框起来。我见过有些是业务并没有这个需要,但是也把好几个select语句放到了事务中。这种只读事务可以去掉。
- 业务连接数据库的时候,根据业务本身的预估,通过SET MAX_EXECUTION_TIME命令,来控制每个语句执行的最长时间,避免单个语句意外执行太长时间。
其次,从数据库端来看:
- 监控 information_schema.Innodb_trx表,设置长事务阈值,超过就报警/或者kill;
- Percona的pt-kill这个工具不错,推荐使用;
- 在业务功能测试阶段要求输出所有的general_log,分析日志行为提前发现问题;
- 如果使用的是MySQL 5.6或者更新版本,把innodb_undo_tablespaces设置成2(或更大的值)。如果真的出现大事务导致回滚段过大,这样设置后清理起来更方便。