Context Navigation

Changes between Version 3 and Version 4 of inputouput

Timestamp:: 11/23/2012 11:41:35 AM (14 years ago)
Author:: liaojiaohe
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

inputouput

-                      v3
+                      v4
 SequenceFileInputFilter[[BR]]
+根据filter从sequence文件中取得部分满足条件的数据，通过setFilterClass指定Filter，内置了三种 Filter，RegexFilter取key值满足指定的正则表达式的记录；PercentFilter通过指定参数f，取记录行数%f==0的记录；MD5Filter通过指定参数f，取MD5(key)%f==0的记录。
+根据filter从sequence文件中取得部分满足条件的数据，通过setFilterClass指定Filter，内置了三种 Filter，RegexFilter取key值满足指定的正则表达式的记录；[[BR]]
+PercentFilter通过指定参数f，取记录行数%f==0的记录；MD5Filter通过指定参数f，取MD5(key)%f==0的记录。[[BR]]
+关系数据库：
+对mysql支持比较好
+读oracle时候split有问题
+OracleDBRecordReader 这个类 84行       if (split.getLength() > 0 && split.getStart() > 0){ 这个判断有问题，第一个split start值就是为0，要去掉
+NLineInputFormat[[BR]]
+可以将文件以行为单位进行split，比如文件的每一行对应一个map。得到的key是每一行的位置（偏移量,LongWritable类型），value是每一行的内容,Text类型。
+另外要增加驱动，jobtracker 机器上的hadoop/lib目录要放驱动，不用重启，
+CompositeInputFormat，用于多个数据源的join。[[BR]]
+ZipFileInputFormat[[BR]]
+zip文件作为输入，每个zip文件对应一个map,hadoop对很多的压缩方式是透明的，但zip文件里面可能会有目录比较复杂
+'''用关系数据库：'''
+DBInputFormat[[BR]]
+对mysql支持比较好，1.0.3版对oracle时候split有问题，具体是[[BR]]
+OracleDBRecordReader 这个类 84行       if (split.getLength() > 0 && split.getStart() > 0){ 这个判断有问题，第一个split start值就是为0，要去掉[[BR]]
+另外要增加驱动，jobtracker 机器上的hadoop/lib目录要放驱动，不用重启，[[BR]]
 其他的机器使用下面语句增加到class path上
 …
 HBASE
+HBASE作为输入