Changes between Version 6 and Version 7 of rapid_develop


Ignore:
Timestamp:
09/18/2012 04:16:22 PM (14 years ago)
Author:
liaojiaohe
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • rapid_develop

    v6 v7  
    9797---- 
    9898 
     99如果只是想做一些快速抽取文件字段的任务可以使用FieldSelectionMapReduce 
    99100 
    100101 
     102{{{ 
     103$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \ 
     104    -D map.output.key.field.separa=. \ 
     105    -D mapred.text.key.partitioner.options=-k1,2 \ 
     106    -D mapred.data.field.separator=. \ 
     107    -D map.output.key.value.fields.spec=6,5,1-3:0- \ 
     108    -D reduce.output.key.value.fields.spec=0-2:5- \ 
     109    -D mapred.reduce.tasks=12 \ 
     110    -input myInputDirs \ 
     111    -output myOutputDir \ 
     112    -mapper org.apache.hadoop.mapred.lib.FieldSelectionMapReduce \ 
     113    -reducer org.apache.hadoop.mapred.lib.FieldSelectionMapReduce \ 
     114    -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 
     115}}} 
     116 
     117 
     118---- 
     119 
    101120hadoop还有一个工具[http://pig.apache.org/ pig],是一种数据流语言