Changes between Version 2 and Version 3 of inputouput


Ignore:
Timestamp:
11/23/2012 11:33:57 AM (13 years ago)
Author:
liaojiaohe
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • inputouput

    v2 v3  
    11输入输出主要有下面种类: 
    22 
    3 文件: 
     3'''文件类型输入:''' 
     4 
     5TextInputFormat [[BR]] 
     6用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。[[BR]] 
     7这个在我们的项目中比较常用,不做说明hadoop会使用这个作为输入,只要往里面添加文件路径就可以了 
     8{{{ 
     9  FileInputFormat.addInputPath(job, path); 
     10}}} 
     11 
     12KeyValueTextInputFormat [[BR]] 
     13同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,第一部分为key,剩下的部分为value;如果没有分隔符,整行作为 key,value为空[[BR]] 
     14 
     15SequenceFileInputFormat (这种方式性能会比较好)[[BR]] 
     16用于读取sequence file。 sequence file是Hadoop用于存储数据自定义格式的binary文件。[[BR]] 
     17它有两个子类:SequenceFileAsBinaryInputFormat,将 key和value以BytesWritable的类型读出;[[BR]] 
     18SequenceFileAsTextInputFormat,将key和value以 Text的类型读出[[BR]] 
     19 
     20SequenceFileInputFilter[[BR]] 
     21根据filter从sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种 Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。 
    422 
    523关系数据库: