Changes between Version 3 and Version 4 of inputouput


Ignore:
Timestamp:
11/23/2012 11:41:35 AM (13 years ago)
Author:
liaojiaohe
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • inputouput

    v3 v4  
    1919 
    2020SequenceFileInputFilter[[BR]] 
    21 根据filter从sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种 Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。 
     21根据filter从sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种 Filter,RegexFilter取key值满足指定的正则表达式的记录;[[BR]] 
     22PercentFilter通过指定参数f,取记录行数%f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。[[BR]] 
    2223 
    23 关系数据库: 
    24 对mysql支持比较好 
    25 读oracle时候split有问题 
    26 OracleDBRecordReader 这个类 84行       if (split.getLength() > 0 && split.getStart() > 0){ 这个判断有问题,第一个split start值就是为0,要去掉 
     24NLineInputFormat[[BR]] 
     25可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。 
    2726 
    28 另外要增加驱动,jobtracker 机器上的hadoop/lib目录要放驱动,不用重启, 
     27CompositeInputFormat,用于多个数据源的join。[[BR]] 
     28 
     29ZipFileInputFormat[[BR]] 
     30zip文件作为输入,每个zip文件对应一个map,hadoop对很多的压缩方式是透明的,但zip文件里面可能会有目录比较复杂 
     31 
     32 
     33'''用关系数据库:''' 
     34DBInputFormat[[BR]] 
     35 
     36对mysql支持比较好,1.0.3版对oracle时候split有问题,具体是[[BR]] 
     37OracleDBRecordReader 这个类 84行       if (split.getLength() > 0 && split.getStart() > 0){ 这个判断有问题,第一个split start值就是为0,要去掉[[BR]] 
     38 
     39另外要增加驱动,jobtracker 机器上的hadoop/lib目录要放驱动,不用重启,[[BR]] 
    2940其他的机器使用下面语句增加到class path上 
    3041 
     
    3546 
    3647 
    37 HBASE 
     48HBASE作为输入