Changes between Version 1 and Version 2 of trouble


Ignore:
Timestamp:
03/13/2013 04:53:58 PM (13 years ago)
Author:
liaojiaohe
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • trouble

    v1 v2  
    44从事后看是hbase log文件在添加到文件目录树的时候出空指针,我怀疑hbase关闭不正常,被杀进程,但网络说hbase正常关闭,而hadoop不能正常关闭[[BR]] 
    55hbase 后来也试过不能正常关闭,怀疑是有web应用正在调用,这个还要对不能正常关闭的问题进行研究[[BR]] 
    6 Namenode不能启动后,发现secondnamenode上面的editor log备份原来一直不成功,namenode上的集群 
     6Namenode不能启动后,发现secondnamenode上面的editor log备份原来一直不成功,namenode上的checkpoint是2月21号的[[BR]] 
    77网络比较急于恢复集群,开发也没有碰到过这种情况,只能上网找方案[[BR]] 
     8网络传来好消息说集群恢复了,上去看只能看到2月21号的文件,这时没想到对hbase是一个毁灭的恢复,网络应该运行了importcheckpoint命令[[BR]] 
     9下午在网上找到一些解决的方法,也发现hbase启动有问题,但致命的是网络在中午离开的safemode[[BR]] 
     10网上找到的方法大致有:1:恢复到一个较近的点(对hbase是灾难) 2:修改editor log,要采用二进制方式修改 3:修改hadoop代码,跳过错误[[BR]] 
     11我们后来采用了第三种方式证明是可以启动namenode,而且除了很少的文件会不一致外其他的影响不到,是一种比较好的修复方式[[BR]] 
     12但如果强行离开safemode状态,datanode会在半小时左右把那些不在索引的block给删除,这样就没办法恢复了,所以importcheckpoint最好不要用[[BR]] 
     13对这次事故的总结是:对数据的恢复不是一般系统的恢复,不能操之过急 
     14 
     15