###################################
问题出现背景:
falcon监控集群,一是由于长期大量的写数据,二是业务用来清理过期数据的定时任务异常而停止了,导致数据量持续增长,直到达到了报警阈值
当前现状:单表的ibd文件大小为2.1T,磁盘空间总共才2.6T
[work@xxx ]$ ll -h total 2.1T -rw-r----- 1 work work 67 Jun 8 11:54 db.opt -rw-r----- 1 work work 8.8K Jun 8 11:54 endpoint_counter.frm -rw-r----- 1 work work 2.1T Jun 18 11:52 endpoint_counter.ibd
解决过程:
1,删除部分binlog:purge binary logs to 'mysql-bin.001174'; 2,将binlog的自动保存天数从7天改为3天:set global expire_logs_days=3; 3,申请3.6T的大磁盘机器,将该集群的机器逐渐替换掉,最后切主 4,写一个删除数据的shell脚本:每2秒删除1.5万行数据的速度 5,当数据删除完毕后,将其中一台的机器的流量去掉,执行stop slave;然后再执行 alter table xxx engine=innodb;将空间释放出来,注意:不要用optimize table 方式来释放空间,我连续两次都失败了,搞了一半后就卡住了,不知为何 6,再用xtrabakcup备份释放空间了的机器上的mysql,逐渐替换掉,最后切主
解决问题后:从原来的2.1T变为了444G,释放了1.6T数据
[work@xxx ]$ ll -h total 444G -rw-r----- 1 work work 67 Jun 8 11:54 db.opt -rw-r----- 1 work work 8.8K Jun 17 14:44 endpoint_counter.frm -rw-r----- 1 work work 444G Jun 18 11:52 endpoint_counter.ibd
##################################