2018.07.12某网吧因为服务器系统盘健康度导致全体卡死重启的故障分析处理过程
今天晚上20:54接到某网吧电话,说整个网吧大部分电脑自动重启了,而且进不去系统了。
立即用电脑远程登录一下,发现连接失败了。。。
立即火速赶往网吧处理。
等我到网吧的时候,老板竟然自己把副服务器拆下来了,还告诉我副服务器不工作了,灯都不亮了,而且拆开以后里面的辅助散热的风扇不转了,而且服务器开不机(后来证明老板以为服务器主板和普通电脑,秒开机,其实要等1分钟左右才会出自检信息)。
我打开了副服务器,装了个鲁大师检测了一下温度,一切正常,告诉老板全部装回去。
转身看到主服务器的硬盘灯一直亮,心想难道硬盘坏了?不应该的。
找了一个电脑通过远程桌面登录主服务器,登录进来一看,无盘控制台界面是灰色的,无盘服务是停止状态的。
重启了所有无盘服务器,关闭无盘控制台重新打开,发现检测不到万兆网卡。
我一想 妈的 哥都从内网远程登录成功了 肯定不是网卡的问题。
再用鼠标一点 发现服务器系统的任务栏卡死 输入法位置也卡死了。
过了10分钟左右,缓过来了。
再次重开无盘控制台,发现能检测到万兆网卡了,客户机也能正常开机了。
回想起刚才看到看到硬盘红色指示灯一直亮的问题,检测一下硬盘吧,没装INTEL SSD TOOLBOX,服务器上有个HDTUNEPRO 先用这个看看
打开一看发现黄色警告信息:
为了确认,又下载了CrystalDiskInfo来检测这个固态硬盘,发现寿命只剩余了51%:
再次下载intel ssd toolbox检测寿命,发现确实在50%左右了:
回想刚才一重启无盘服务器,任务栏卡死的原因,因为C D都是系统盘这个一个SSD,有了损坏的地方了,一重启无盘服务器导致卡死一会,过了一会启动起来就正常了,确认这个SSD已经挂了。
最后回想老板说副服务器不工作,其实不是不工作,是主服务器卡死了,DHCP都工作了,副服务器自然也就清闲了,硬盘指示灯也就不闪烁了,所以老板以为坏了。
火速让老板从京东购买了INTEL S3520 150G等待替换。