Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Version 1 and Version 2 of trouble

Timestamp:: 03/13/2013 04:53:58 PM (13 years ago)
Author:: liaojiaohe
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

trouble

-                      v1
+                      v2
 从事后看是hbase log文件在添加到文件目录树的时候出空指针，我怀疑hbase关闭不正常，被杀进程，但网络说hbase正常关闭，而hadoop不能正常关闭[[BR]]
 hbase 后来也试过不能正常关闭，怀疑是有web应用正在调用，这个还要对不能正常关闭的问题进行研究[[BR]]
 Namenode不能启动后，发现secondnamenode上面的editor log备份原来一直不成功，namenode上的集群
+Namenode不能启动后，发现secondnamenode上面的editor log备份原来一直不成功，namenode上的checkpoint是2月21号的[[BR]]
 网络比较急于恢复集群，开发也没有碰到过这种情况，只能上网找方案[[BR]]
+网络传来好消息说集群恢复了，上去看只能看到2月21号的文件，这时没想到对hbase是一个毁灭的恢复，网络应该运行了importcheckpoint命令[[BR]]
+下午在网上找到一些解决的方法，也发现hbase启动有问题，但致命的是网络在中午离开的safemode[[BR]]
+网上找到的方法大致有：1：恢复到一个较近的点（对hbase是灾难) 2:修改editor log，要采用二进制方式修改 3:修改hadoop代码，跳过错误[[BR]]
+我们后来采用了第三种方式证明是可以启动namenode，而且除了很少的文件会不一致外其他的影响不到，是一种比较好的修复方式[[BR]]
+但如果强行离开safemode状态，datanode会在半小时左右把那些不在索引的block给删除，这样就没办法恢复了，所以importcheckpoint最好不要用[[BR]]
+对这次事故的总结是：对数据的恢复不是一般系统的恢复，不能操之过急