运维故障解决思路

作为一名合格的 Linux 运维工程师，一定要有一套清晰、明确的解决故障思路，当问题出现时，才能迅速定位、解决问题，这里给出一个处理问题的一般思路：

1、确定故障现象并初判问题影响
在处理故障前，运维人员首先要知道故障现象，故障现象直接决定故障应急方案的制定，确认了故障现象后，才能初步判断及故障影响。

2、是否进行过相关变更（内部员工或者客户是否有相关操作）
大部份故障是由于变更导致，确定故障现象后，如果有应的变更，有助于从变更角度出现分析是否是变更引起，进而快速定位故障并准备好回切等应急方案。

3、应急恢复
运维最基本的指标就是系统可用性，应急恢复的时效性是系统可用性的关键指标。采取回滚的方式让业务先恢复正常。在此之前，有条件的情况下，可以使用如CORE\DUMP，或TRACE采集信息等，备份好一些可能被覆盖的日志等。

4、快速定位故障原因
（1）重视报错提示信息：
每个错误的出现，都是给出错误提示信息，一般情况下这个提示基本定位了问题的所在，因此一定要重视这个报错信息，如果对这些错误信息视而不见，问题永远得不到解决。
（2）查阅日志文件：
有时候报错信息只是给出了问题的表面现象，要想更深入的了解问题，必须查看相应的日志文件，而日志文件又分为系统日志文件（/var/log）和应用的日志文件，结合这两个日志文件，一般就能定位问题所在。

（3）分析、定位问题：
这个过程是比较复杂的，根据报错信息，结合日志文件，同时还要考虑其它相关情况，最终找到引起问题的原因。

重大故障问题处理流程如下：
召集相关人员 --> 描述故障现状 --> 说明正常应用逻辑流程 --> 陈述变更 --> 排查进展，展示信息 --> 领导决策