大批量数据录入是HBASE的常做操作 做法大致有下面的几种: 1. 使用HBASE的API使用单个client,Put入HBase。 比较有效率的做法是单线程读取数据源,多线程写入HBASE中,问题是如果操作的表region数量比较少,SPLIT,COMPACTION的时候会卡住写数据的线程(当然可以通过调节参数让region暂时不做SPLIT,COMPACTION,不过为了一个应用做这种平台级别的调整好像不太必要) 所以这种方式一般可以在region数量比较多,数据比较分散的情况下使用,我们线上的机器单个resion承受5000/s条记录(每记录100字节左右)是没有问题的 2. 使用多个client 在多台客户机上向HBase写数据,听说这种做法入库效率比较高,而且不会占用Hbase机器上面的资源,单要客户端自己做数据划分,所以实际我们比较少用。 3. 使用map reduce 写入HBase。 4. 使用[/wiki/loaddata/bulkload/ Bulk Loads] 方式入库。