Linux下系统或服务排障的最佳实践
2012-05-17 23:40:10 来源:我爱运维网 评论:0 点击:
一、故障表现。首先一个应用或系统不正常,会表现在:1、前端应用/网页显示不正常,出错5XX,4XX或其他错误信息或慢或出不来;2、当前端端...
Lsof 看open file 被删除的: 13g 的日志放在/usr/local/nginx/logs下面; 在/ 上;
[root@166-88 /]# lsof |grep -i del
。。。
nginx 5219 root DEL REG 0,9 18446744073202310822 /dev/zero
nginx 5219 root 3w REG 253,0 13127866257 2719794 /usr/local/nginx/logs/error.log (deleted)
nginx 24661 root 3w REG 253,0 13127866257 2719794 /usr/local/nginx/logs/error.log (deleted)
可以看到open file ,被删除了,但是空间没有释放;
重启nginx
[root@SZT-AD-AFV-166-88 /]# service nginx stop; service nginx start
Stopping nginx...
查看某个应用软件打开的日志:如查看mq打开的日志,ps –ef|grep mq,找出pid为18787,然后 lsof –p 18787|grep log
[root@DB-241 bin]# ps -ef|grep mq
root 10686 10441 0 16:14 pts/1 00:00:00 grep mq
root 18787 1 0 Oct20 ? 00:13:07 /usr/local/jdk/bin/java -Xms2048M -Xmx2048M -Dorg.apache.activemq.UseDedicatedTaskRunner=true -Djava.util.logging.config.file=logging.properties -Dcom.sun.management.jmxremote -Dactivemq.classpath=/usr/local/activemq-5.4.1/conf; -Dactivemq.home=/usr/local/activemq-5.4.1 -Dactivemq.base=/usr/local/activemq-5.4.1 -jar /usr/local/activemq-5.4.1/bin/run.jar start
[root@DB-241 bin]# lsof –p 18787|grep log
verify:--10次循环(每个挂载点写入100M的文件100次)
verify:
for i in 0 1 2 3 4 5 6 7 8 9 10
do
dd if=/dev/zero of=/home/service/$i/test.log bs=1048576 count=100
done
查看并升级DELL R510的Broadcom网卡驱动(网卡驱动有缺陷):
#!/bin/sh
#Checking network interface driver.
DRIVER_VER=`modinfo bnx2 | grep '\bversion' | awk '{print $2}'`
KERNEL=`modinfo bnx2 | grep filename | awk -F'/' '{print $4}'`
if [ $DRIVER_VER == "2.0.8e" ]
then
depmod -a && modprobe bnx2
echo "Network interface driver was installed. It works well now." >> /root/check_net_driver.log
else
if [ $KERNEL == "2.6.18-164.el5" ]
then
rpm -Uvh http://www.5iops.com/rhel_5.4_repo/5iops/netxtreme2-5.2.55-2.x86_64.rpm
depmod -a && modprobe bnx2 && echo "netxtreme2 installed"
fi
if [ $KERNEL == "2.6.18-164.el5xen" ]
then
rpm -Uvh http://www.5iops.com/rhel_5.4_repo/5iops/netxtreme2-xen-5.2.55-2.x86_64.rpm
depmod -a && modprobe bnx2 && echo "netxtreme2-xen installed"
fi
fi
查一系列文件中的行数:如查看所有rpc_error*.log文件中的错误数
for file in `ls rpc_error*.log`; do echo $file; grep -c recommend $file; done
rpc_error_20111122.log 91190
rpc_error_20111123.log 88909
rpc_error_20111124.log 110018
rpc_error_20111125.log 134591
rpc_error_20111126.log 221625
rpc_error_20111127.log 237515
rpc_error_20111128.log 156007
rpc_error_20111129.log 192667
rpc_error_20111130.log 182664
rpc_error_20111201.log 117474
rpc_error_20111202.log 170258
调试进程:
strace –p pid
pstree|grep net
grep ^read abc.log
[root@166-88 /]# lsof |grep -i del
。。。
nginx 5219 root DEL REG 0,9 18446744073202310822 /dev/zero
nginx 5219 root 3w REG 253,0 13127866257 2719794 /usr/local/nginx/logs/error.log (deleted)
nginx 24661 root 3w REG 253,0 13127866257 2719794 /usr/local/nginx/logs/error.log (deleted)
可以看到open file ,被删除了,但是空间没有释放;
重启nginx
[root@SZT-AD-AFV-166-88 /]# service nginx stop; service nginx start
Stopping nginx...
查看某个应用软件打开的日志:如查看mq打开的日志,ps –ef|grep mq,找出pid为18787,然后 lsof –p 18787|grep log
[root@DB-241 bin]# ps -ef|grep mq
root 10686 10441 0 16:14 pts/1 00:00:00 grep mq
root 18787 1 0 Oct20 ? 00:13:07 /usr/local/jdk/bin/java -Xms2048M -Xmx2048M -Dorg.apache.activemq.UseDedicatedTaskRunner=true -Djava.util.logging.config.file=logging.properties -Dcom.sun.management.jmxremote -Dactivemq.classpath=/usr/local/activemq-5.4.1/conf; -Dactivemq.home=/usr/local/activemq-5.4.1 -Dactivemq.base=/usr/local/activemq-5.4.1 -jar /usr/local/activemq-5.4.1/bin/run.jar start
[root@DB-241 bin]# lsof –p 18787|grep log
verify:--10次循环(每个挂载点写入100M的文件100次)
verify:
for i in 0 1 2 3 4 5 6 7 8 9 10
do
dd if=/dev/zero of=/home/service/$i/test.log bs=1048576 count=100
done
查看并升级DELL R510的Broadcom网卡驱动(网卡驱动有缺陷):
#!/bin/sh
#Checking network interface driver.
DRIVER_VER=`modinfo bnx2 | grep '\bversion' | awk '{print $2}'`
KERNEL=`modinfo bnx2 | grep filename | awk -F'/' '{print $4}'`
if [ $DRIVER_VER == "2.0.8e" ]
then
depmod -a && modprobe bnx2
echo "Network interface driver was installed. It works well now." >> /root/check_net_driver.log
else
if [ $KERNEL == "2.6.18-164.el5" ]
then
rpm -Uvh http://www.5iops.com/rhel_5.4_repo/5iops/netxtreme2-5.2.55-2.x86_64.rpm
depmod -a && modprobe bnx2 && echo "netxtreme2 installed"
fi
if [ $KERNEL == "2.6.18-164.el5xen" ]
then
rpm -Uvh http://www.5iops.com/rhel_5.4_repo/5iops/netxtreme2-xen-5.2.55-2.x86_64.rpm
depmod -a && modprobe bnx2 && echo "netxtreme2-xen installed"
fi
fi
查一系列文件中的行数:如查看所有rpc_error*.log文件中的错误数
for file in `ls rpc_error*.log`; do echo $file; grep -c recommend $file; done
rpc_error_20111122.log 91190
rpc_error_20111123.log 88909
rpc_error_20111124.log 110018
rpc_error_20111125.log 134591
rpc_error_20111126.log 221625
rpc_error_20111127.log 237515
rpc_error_20111128.log 156007
rpc_error_20111129.log 192667
rpc_error_20111130.log 182664
rpc_error_20111201.log 117474
rpc_error_20111202.log 170258
调试进程:
strace –p pid
pstree|grep net
grep ^read abc.log
上一篇:第一页
下一篇:Nginx升级后导致文件下载不完整或僵死的解决
分享到:
收藏
评论排行
- ·Windows(Win7)下用Xming...(92)
- ·使用jmx client监控activemq(20)
- ·Hive查询OOM分析(14)
- ·复杂网络架构导致的诡异...(8)
- ·使用 OpenStack 实现云...(7)
- ·影响Java EE性能的十大问题(6)
- ·云计算平台管理的三大利...(6)
- ·Mysql数据库复制延时分析(5)
- ·OpenStack Nova开发与测...(4)
- ·LTPP一键安装包1.2 发布(4)
- ·Linux下系统或服务排障的...(4)
- ·PHP发布5.4.4 和 5.3.1...(4)
- ·RSYSLOG搭建集中日志管理服务(4)
- ·转换程序源码的编码格式[...(3)
- ·Linux 的木马程式 Wirenet 出现(3)
- ·Nginx 发布1.2.1稳定版...(3)
- ·zend framework文件读取漏洞分析(3)
- ·Percona Playback 0.3 development release(3)
- ·运维业务与CMDB集成关系一例(3)
- ·应该知道的Linux技巧(3)