作为一名合格的 Linux 运维工程师,一定要有一套清晰、明确的解决故障思路,当问题出现时,才能迅速定位、解决问题,这里给出一个处理问题的一般思路:

1、确定故障现象并初判问题影响
在处理故障前,运维人员首先要知道故障现象,故障现象直接决定故障应急方案的制定,确认了故障现象后,才能初步判断及故障影响。

2、是否进行过相关变更(内部员工或者客户是否有相关操作)
大部份故障是由于变更导致,确定故障现象后,如果有应的变更,有助于从变更角度出现分析是否是变更引起,进而快速定位故障并准备好回切等应急方案。

3、应急恢复
运维最基本的指标就是系统可用性,应急恢复的时效性是系统可用性的关键指标。采取回滚的方式让业务先恢复正常。在此之前,有条件的情况下,可以使用如CORE\DUMP,或TRACE采集信息等,备份好一些可能被覆盖的日志等。

4、快速定位故障原因
(1)重视报错提示信息:
每个错误的出现,都是给出错误提示信息,一般情况下这个提示基本定位了问题的所在,因此一定要重视这个报错信息,如果对这些错误信息视而不见,问题永远得不到解决。
(2)查阅日志文件:
有时候报错信息只是给出了问题的表面现象,要想更深入的了解问题,必须查看相应的日志文件,而日志文件又分为系统日志文件(/var/log)和应用的日志文件,结合这两个日志文件,一般就能定位问题所在。

(3)分析、定位问题:
这个过程是比较复杂的,根据报错信息,结合日志文件,同时还要考虑其它相关情况,最终找到引起问题的原因。

重大故障问题处理流程如下:
召集相关人员 --> 描述故障现状 --> 说明正常应用逻辑流程 --> 陈述变更 --> 排查进展,展示信息 --> 领导决策