Linux下系统或服务排障的最佳实践
2012-05-17 23:40:10 来源:我爱运维网 评论:0 点击:
一、故障表现。首先一个应用或系统不正常,会表现在:1、前端应用/网页显示不正常,出错5XX,4XX或其他错误信息或慢或出不来;2、当前端端...
四、长期而坚持要做的:
1、 好用的运维平台。完善的运维架构及说明文档;
2、 全面、及时、准确的监控系统或平台。最好有专门的运维工具开发团队(2-3人),专门负责小工具开发。
3、 变更管理。每一次修改及变更都有记录,操作步骤在执行前有人REVIEW(评估、复查);
4、 故障管理。每一次问题或故障都要设法找到根本原因。如果短时间找不到,要启用及时发现该问题的能力并绕过(如设定健康检测脚本重启服务)。故障与BUG均需要分级管理【P0~P4】。
5、 备份体系。不仅要有本地备份(应用与数据),而且还要有异地备份。任何情况下要做到即使系统全部破坏,我们还可以重建出来。
6、 容量规划。及时发现潜在或即将到来的瓶颈。
7、 架构设计并持续优化。设法排除单点,多机布署及负载均衡。架构的优化是长期的结果,也是最可以省成本的地方。
8、 人员的管理与培训。分享无时无处不在。
1、 好用的运维平台。完善的运维架构及说明文档;
2、 全面、及时、准确的监控系统或平台。最好有专门的运维工具开发团队(2-3人),专门负责小工具开发。
3、 变更管理。每一次修改及变更都有记录,操作步骤在执行前有人REVIEW(评估、复查);
4、 故障管理。每一次问题或故障都要设法找到根本原因。如果短时间找不到,要启用及时发现该问题的能力并绕过(如设定健康检测脚本重启服务)。故障与BUG均需要分级管理【P0~P4】。
5、 备份体系。不仅要有本地备份(应用与数据),而且还要有异地备份。任何情况下要做到即使系统全部破坏,我们还可以重建出来。
6、 容量规划。及时发现潜在或即将到来的瓶颈。
7、 架构设计并持续优化。设法排除单点,多机布署及负载均衡。架构的优化是长期的结果,也是最可以省成本的地方。
8、 人员的管理与培训。分享无时无处不在。
上一篇:第一页
下一篇:Nginx升级后导致文件下载不完整或僵死的解决
分享到:
收藏
评论排行
- ·Windows(Win7)下用Xming...(92)
- ·使用jmx client监控activemq(20)
- ·Hive查询OOM分析(14)
- ·复杂网络架构导致的诡异...(8)
- ·使用 OpenStack 实现云...(7)
- ·影响Java EE性能的十大问题(6)
- ·云计算平台管理的三大利...(6)
- ·Mysql数据库复制延时分析(5)
- ·OpenStack Nova开发与测...(4)
- ·LTPP一键安装包1.2 发布(4)
- ·Linux下系统或服务排障的...(4)
- ·PHP发布5.4.4 和 5.3.1...(4)
- ·RSYSLOG搭建集中日志管理服务(4)
- ·转换程序源码的编码格式[...(3)
- ·Linux 的木马程式 Wirenet 出现(3)
- ·Nginx 发布1.2.1稳定版...(3)
- ·zend framework文件读取漏洞分析(3)
- ·Percona Playback 0.3 development release(3)
- ·运维业务与CMDB集成关系一例(3)
- ·应该知道的Linux技巧(3)