Changes between Initial Version and Version 1 of trouble


Ignore:
Timestamp:
03/13/2013 04:36:20 PM (13 years ago)
Author:
liaojiaohe
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • trouble

    v1 v1  
     120130304 号 我们的hadoop发生了一次灾难性的故障, 
     2起因是一次网络简单的机器重启任务(对一年没有重启过的机器要进行重启)[[BR]] 
     3机器重启后namenode不能启动[[BR]] 
     4从事后看是hbase log文件在添加到文件目录树的时候出空指针,我怀疑hbase关闭不正常,被杀进程,但网络说hbase正常关闭,而hadoop不能正常关闭[[BR]] 
     5hbase 后来也试过不能正常关闭,怀疑是有web应用正在调用,这个还要对不能正常关闭的问题进行研究[[BR]] 
     6Namenode不能启动后,发现secondnamenode上面的editor log备份原来一直不成功,namenode上的集群 
     7网络比较急于恢复集群,开发也没有碰到过这种情况,只能上网找方案[[BR]]