Changes between Version 3 and Version 4 of inputouput
- Timestamp:
- 11/23/2012 11:41:35 AM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
inputouput
v3 v4 19 19 20 20 SequenceFileInputFilter[[BR]] 21 根据filter从sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种 Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。 21 根据filter从sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种 Filter,RegexFilter取key值满足指定的正则表达式的记录;[[BR]] 22 PercentFilter通过指定参数f,取记录行数%f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。[[BR]] 22 23 23 关系数据库: 24 对mysql支持比较好 25 读oracle时候split有问题 26 OracleDBRecordReader 这个类 84行 if (split.getLength() > 0 && split.getStart() > 0){ 这个判断有问题,第一个split start值就是为0,要去掉 24 NLineInputFormat[[BR]] 25 可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。 27 26 28 另外要增加驱动,jobtracker 机器上的hadoop/lib目录要放驱动,不用重启, 27 CompositeInputFormat,用于多个数据源的join。[[BR]] 28 29 ZipFileInputFormat[[BR]] 30 zip文件作为输入,每个zip文件对应一个map,hadoop对很多的压缩方式是透明的,但zip文件里面可能会有目录比较复杂 31 32 33 '''用关系数据库:''' 34 DBInputFormat[[BR]] 35 36 对mysql支持比较好,1.0.3版对oracle时候split有问题,具体是[[BR]] 37 OracleDBRecordReader 这个类 84行 if (split.getLength() > 0 && split.getStart() > 0){ 这个判断有问题,第一个split start值就是为0,要去掉[[BR]] 38 39 另外要增加驱动,jobtracker 机器上的hadoop/lib目录要放驱动,不用重启,[[BR]] 29 40 其他的机器使用下面语句增加到class path上 30 41 … … 35 46 36 47 37 HBASE 48 HBASE作为输入
![(please configure the [header_logo] section in trac.ini)](http://www1.pconline.com.cn/hr/2009/global/images/logo.gif)