生产事故——磁盘使用率爆仓

哈喽哈喽大家猴，我是把代码写成bug的大头菜。公众号：大头菜技术(bigheadit)。原创不易，但欢迎转载。

今天不知道为啥醒得特别早，可能就是缘分吧。醒来一看微信，就发现线上的服务器的磁盘使用率超过70%，真是早起的鸟儿有bug修。。。。。

磁盘使用率1

当时我就立马跑去看看监控，看看cpu,内存,io这些是否都正常。看了一圈，发现除了磁盘异常外，其他一切都正常。

我当时是7点左右看到的消息，看到后，磁盘的使用率达到72%，超过了设定阈值70%。就如上图的红色箭头所示。

当时我是直接进入服务器，用df -h查看服务器的磁盘使用空间。

看到上图，当时我人都傻了。2.7T空间，然后使用才5%，哪来的70%磁盘使用率。

后来深呼吸，喝口冰水冷静一下，发现，公司用的是容器，而df -h查的是物理服务器的磁盘空间。当时我情况比较紧急，我也忘了什么命令可以查容器的硬盘空间。只好去谷歌输入框输入：“如何查看容器的磁盘空间”

很快，我就搜到相关命令：docker system df -v

然而，等待我的却是

docker system df -v
-bash: docker: command not found

牛逼！！！牛逼！！！

好吧，看来是没办法通过命令查看哪个地方用的磁盘空间比较大了。不过又比较紧急，只能用最笨的方法：遍历查询。但是这个遍历，我优先遍历查看日志文件。没想到一击即中，立马就找到了磁盘爆满的根本原因。

你看，从2月25号日志到现在3.21号的日志都在，总共占用了20G。我问了运维每台容器分配30G。20G/30G=66.7%。单纯日志已经占用磁盘空间的66.7%，再加上其他的应用，占用70+%。实锤了，找到真凶了。我也没想到这么快找到。

至于为什么我一开始就找日志文件呢？

主要是因为经验吧，因为之前别的服务器也出现过磁盘使用率问题，当时也是因为日志文件问题。简单总结一下，虽然经验不总是可靠，但排查线上问题时，经验又总是那么有用。因此，排查问题时，一开始要根据监控数据，进行排查，不要先入为主，用想当然去排查，就是不用经验去想问题。先跳出固有圈子，根据实实在在的监控指标数据排查。实在没办法时，再用经验去排查也不迟。

那么现在我们已经定位到磁盘空间问题的根本原因：日志文件占用空间过多。