| Version 2 (modified by liaojiaohe, 13 years ago) (diff) |
|---|
比较完整的Hadoop应用jar包,包括入口程序,任务和帮助类3部分就够了
- 我们在项目的包的顶级放一个入口程序
如 cn.pconline.ad.analytics3.Analyser,入口程序里面有一个ProgramDriver,把任务类加在里面就可以通过命令 hadoop jar Analyser3.0.jar SumPvClick? 执行
public static void main(String argv[]) throws Exception {
int exitCode = -1;
ProgramDriver pgd = new ProgramDriver();
try {
pgd.addClass("CombineADRawFile", CombineADRawFile.class, "");
pgd.addClass("SumPvClick", SumPvClick.class, "");
....
- hadoop任务是程序包的核心,借用网上两张图说明一下map和reduce的流程
我们的做法是写一个实现Tool接口的基类,其他的任务继承这个基类,有些公共的方法就不用每个重复
public abstract class JobBase implements Tool
每个任务的核心是map和reduce,有些类可以使用系统现有的,有些可以项目公用,不过更多的需要每个job里面自己定制,借网上的两张图说明一下map和reduce的流程
Attachments
-
map.jpg
(13.7 KB) -
added by liaojiaohe 13 years ago.
-
reduce.jpg
(7.8 KB) -
added by liaojiaohe 13 years ago.
-
adAnalytics3.0.zip
(135.9 KB) -
added by liaojiaohe 13 years ago.
![(please configure the [header_logo] section in trac.ini)](http://www1.pconline.com.cn/hr/2009/global/images/logo.gif)