###################################

问题出现背景:

        

falcon监控集群,一是由于长期大量的写数据,二是业务用来清理过期数据的定时任务异常而停止了,导致数据量持续增长,直到达到了报警阈值

 

当前现状:单表的ibd文件大小为2.1T,磁盘空间总共才2.6T

[work@xxx ]$ ll -h
total 2.1T
-rw-r----- 1 work work   67 Jun  8 11:54 db.opt
-rw-r----- 1 work work 8.8K Jun  8 11:54 endpoint_counter.frm
-rw-r----- 1 work work 2.1T Jun 18 11:52 endpoint_counter.ibd

 

解决过程:

1,删除部分binlog:purge binary logs to 'mysql-bin.001174';

2,将binlog的自动保存天数从7天改为3天:set global expire_logs_days=3;

3,申请3.6T的大磁盘机器,将该集群的机器逐渐替换掉,最后切主

4,写一个删除数据的shell脚本:每2秒删除1.5万行数据的速度

5,当数据删除完毕后,将其中一台的机器的流量去掉,执行stop slave;然后再执行 alter table xxx engine=innodb;将空间释放出来,注意:不要用optimize table 方式来释放空间,我连续两次都失败了,搞了一半后就卡住了,不知为何

6,再用xtrabakcup备份释放空间了的机器上的mysql,逐渐替换掉,最后切主

 

解决问题后:从原来的2.1T变为了444G,释放了1.6T数据

[work@xxx ]$ ll -h
total 444G
-rw-r----- 1 work work   67 Jun  8 11:54 db.opt
-rw-r----- 1 work work 8.8K Jun 17 14:44 endpoint_counter.frm
-rw-r----- 1 work work 444G Jun 18 11:52 endpoint_counter.ibd

 

 

 

 

 

 

 

 

##################################