怎样比较快速的查询HBASE里面的数据?

在以往的项目中，主要开发的工具是java，写具体的map，reduce，调试后，打包上传执行[[BR]]
除此以为简单的数据查询可以利用hive建EXTERNAL TABLE进行查询[[BR]]

其中最为方便的是使用python或者ruby等脚本语言编写mapper和reducer的文件

== Hadoop Streaming原理 ==

在上面的例子里，mapper和reducer都是可执行文件，它们从标准输入读入数据（一行一行读），并把计算结果发给标准输出。Streaming工具会创建一个Map/Reduce作业，并把它发送给合适的集群，同时监视这个作业的整个执行过程。[[BR]]

如果一个可执行文件被用于mapper，则在mapper初始化时，每一个mapper任务会把这个可执行文件作为一个单独的进程启动。 mapper任务运行时，它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时，mapper收集可执行文件进程标准输出的内容，并把收到的每一行内容转化成key/value对，作为mapper的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的（不包括tab）作为value。如果没有tab，整行作为key值，value值为null。不过，这可以定制，在下文中将会讨论如何自定义key和value的切分方式。[[BR]]

如果一个可执行文件被用于reducer，每个reducer任务会把这个可执行文件作为一个单独的进程启动。 Reducer任务运行时，它把输入切分成行并把每一行提供给可执行文件进程的标准输入。同时，reducer收集可执行文件进程标准输出的内容，并把每一行内容转化成key/value对，作为reducer的输出。默认情况下，一行中第一个tab之前的部分作为key，之后的（不包括tab）作为value。在下文中将会讨论如何自定义key和value的切分方式。


== 命令形式与参数 ==

{{{
$HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.3.jar
  
-input myInputDirs 【hdfs系统中输入文件/夹位置】  

-output myOutputDir  【这个目录需要不存在】  

-mapper mapper.rb 【可执行的文件或者命令】

-reducer reducer.rb   【可执行的文件或者命令】

-file 【需要分发的文件】
}}}

其他的参数

{{{
      -inputformat JavaClassName
      -outputformat JavaClassName
      -partitioner JavaClassName   【用户自定义的partitioner程序】
      -combiner JavaClassName      【用户自定义的combiner程序（必须用java实现）】
}}}

配置


{{{
-conf <configuration file>     specify an application configuration file
-D <property=value>            use value for given property
}}}


== 例子 ==

word counter 例子
mapper.rb
{{{
#!/usr/bin/env ruby
wordcount = Hash.new
STDIN.each_line do |line|
line.split.each do |word|
wordcount[word] = wordcount[word].to_i+1
end
end
wordcount.each_pair do |word,count|
puts "#{word}\t#{count}"
end

}}}

reducer.rb
{{{
#!/usr/bin/env ruby
wordcount = Hash.new
STDIN.each_line do |line|
keyval = line.split("\t")
wordcount[keyval[0]] = wordcount[keyval[0]].to_i+keyval[1].to_i
end
wordcount.each_pair do |word,count|
puts "#{word}\t#{count}"
end
}}}

命令
{{{
hadoop jar /data/hadoop-1.0.3/contrib/streaming/hadoop-streaming-1.0.3.jar -input /dingxiang/work/liboutput/* -output /output -mapper mapper.rb -reducer reducer.rb -file ./mapper.rb  -file ./reducer.rb 
}}}


----

{{{
#!html
<h1 style="text-align: left; color:red">怎样比较快速的查询HBASE里面的数据?</h1>
}}}

* 使用hbase shell?会一个个region进行查询，速度比较慢[[BR]]
* 采用hive, 要建映射表，有些条件使用sql比较难实现[[BR]]

* 采用streaming 方式，采用hbase作为输入 [https://github.com/victorlin/hadoop-hbase-streaming hadoop-hbase-streaming]但网上这个包还不支持最新的版本
最快的方式还是采用mapreduce java 程序来查
----

如果只是想做一些快速抽取文件字段的任务可以使用FieldSelectionMapReduce


{{{
$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -D map.output.key.field.separa=. \
    -D mapred.text.key.partitioner.options=-k1,2 \
    -D mapred.data.field.separator=. \
    -D map.output.key.value.fields.spec=6,5,1-3:0- \
    -D reduce.output.key.value.fields.spec=0-2:5- \
    -D mapred.reduce.tasks=12 \
    -input myInputDirs \
    -output myOutputDir \
    -mapper org.apache.hadoop.mapred.lib.FieldSelectionMapReduce \
    -reducer org.apache.hadoop.mapred.lib.FieldSelectionMapReduce \
    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner
}}}


----

hadoop还有一个工具[http://pig.apache.org/ pig]，是一种数据流语言