wiki:WikiStart

Version 49 (modified by liaojiaohe, 13 years ago) (diff)

--

PCGROUP 分布式计数框架

背景:分布式计算或者并行计算由来已久,以往需要比较高端的硬件设备和专用软件。随着互联网的高速发展,基于数据密集型应用的计算框架不断出现,如Google使用相对低廉的硬件和MAPREDUCE算法的构筑起分布式计算的平台,国内一些技术实力较强的公司如百度,淘宝,腾讯也纷纷建立起各自的分布式计算平台。PCGROUP为提升后台系统的计算能力,充分利用机器的计算能力,也建立起自身的分布式计算平台。平台主要建立在HADOOP和HBASE的基础上,初期主要项目:定向广告、广告报表系统、广告数据分析、魔方数据分析。

想更多了解分布式计算,点击

项目成员

负责:廖教和,欧彬

资源支持:董用彬,陈小虎,张泽云

开发支持:易杰行,莫应超,李达荣

项目计划

里程碑

任务报表

最新进度:

2012.11.28

广告系统报表改造已经完成编码,准备用实际数据进行测试

2012.10.15

对开源监控系统研究的结果是过于复杂,功能类似我们公司的网管系统,暂时不使用
自己开发的一个简单的监控统计系统[ http://192.168.238.63:8080 ]
下一步为广告报表的改版做准备,研究一下独立ip的算法

2012.09.15

第一阶段升级已经完成,也搞清楚了Hadoop和HBASE内部的很多配置和问题
线上任务执行情况比较好,对应开发规范,小型的开发可以参考hadoop_tools
鉴于现在没有大项目要开发或者改版,先研究一下Hadoop相关两个开源工具

 oozie流程控制工具,集群维护与监控工具 ambari

项目文档

Hadoop+HBase系统升级(20120910)

HADOOP 配置说明(20121127)

HBASE 配置说明(未完成)

HADOOP 常用命令(未完成)

HBASE 常用命令(20120919)

大批量数据录入HBASE(20120820)

压缩方式的选择(20120910)

HBASE表设计(20120918)

HADOOP快速开发(20120919)

通过一个工具项目说明HADOOP程序开发过程(20120924)

MR任务监控系统(PCONLINE) (20121016)

MR任务调度系统(PCONLINE) (20121022)

HADOOP开发流程——广告数据分析为例(20121127)

Hadoop常用输入输出(20121115)

wiki/trouble 20130304 hadoop事故分析

参考资料

HBASE参考资料

HADOOP参考资料

ganglia

 dremel

Oozie——Hadoop 工作的流程管理工具

mahout一些测试

phenix一个可以使用sql查询hbase的工具