== PCGROUP 分布式计数框架 == '''背景:分布式计算或者并行计算由来已久,以往需要比较高端的硬件设备和专用软件。随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,如Google使用相对低廉的硬件和MAPREDUCE算法的构筑起分布式计算的平台,国内一些技术实力较强的公司如百度,淘宝,腾讯也纷纷建立起各自的分布式计算平台。PCGROUP为提升后台系统的计算能力,充分利用机器的计算能力,也建立起自身的分布式计算平台。平台主要建立在HADOOP和HBASE的基础上,初期主要项目:定向广告、广告报表系统、广告数据分析、魔方数据分析。'''[[BR]] 想更多了解[/wiki/concept/ 分布式计算,点击] == 项目成员 == 负责:廖教和,欧彬[[BR]] 资源支持:董用彬,陈小虎,张泽云[[BR]] 开发支持:易杰行,莫应超,李达荣 == 项目计划 == [http://trac.pc.com.cn/dcf/roadmap 里程碑][[BR]] [http://trac.pc.com.cn/dcf/report/1 任务报表] 最新进度: 2012.11.28 广告系统报表改造已经完成编码,准备用实际数据进行测试 2012.10.15 对开源监控系统研究的结果是过于复杂,功能类似我们公司的网管系统,暂时不使用[[BR]] 自己开发的一个简单的监控统计系统[http://192.168.238.63:8080 ] [[BR]] 下一步为广告报表的改版做准备,研究一下独立ip的算法[[BR]] 2012.09.15 第一阶段升级已经完成,也搞清楚了Hadoop和HBASE内部的很多配置和问题[[BR]] 线上任务执行情况比较好,对应开发规范,小型的开发可以参考[/wiki/hadoop_tools hadoop_tools][[BR]] 鉴于现在没有大项目要开发或者改版,先研究一下Hadoop相关两个开源工具[[BR]] [http://incubator.apache.org/oozie/index.html oozie]流程控制工具,集群维护与监控工具[http://incubator.apache.org/ambari/ ambari] == 项目文档 == [/wiki/update2012/ Hadoop+HBase系统升级](20120910) [/wiki/hadoopconfig/ HADOOP 配置说明](20121127) [/wiki/hbaseconfig/ HBASE 配置说明](未完成) [/wiki/hadoopcommand/ HADOOP 常用命令](未完成) [/wiki/hbasecommand/ HBASE 常用命令](20120919) [/wiki/loaddata/ 大批量数据录入HBASE](20120820) [/wiki/compress/ 压缩方式的选择](20120910) [/wiki/hbase_table_design/ HBASE表设计](20120918) [/wiki/rapid_develop HADOOP快速开发](20120919) [/wiki/hadoop_tools 通过一个工具项目说明HADOOP程序开发过程](20120924) [/wiki/minitor MR任务监控系统(PCONLINE)] (20121016) [/wiki/schedule MR任务调度系统(PCONLINE)] (20121022) [/wiki/adanalytics HADOOP开发流程——广告数据分析为例](20121127) [/wiki/inputouput/ Hadoop常用输入输出](20121115) [/wiki/trouble 20130304 hadoop事故分析] == 参考资料 == [/wiki/hbase/reference/ HBASE参考资料] [/wiki/hadoop/reference/ HADOOP参考资料] [/wiki/ganglia ganglia] [http://www.yankay.com/google-dremel-rationale/ dremel] [/wiki/oozie Oozie——Hadoop 工作的流程管理工具] [/wiki/mahout mahout一些测试] [/wiki/phenix phenix一个可以使用sql查询hbase的工具]