现在流行的分布式计算系统一般包括:
分布式文件系统:如HDFS,Marp,Ceph,
其他的分布式文件系统和HADOOP集合的不是很好,适合做图片服务器或者网盘一类的应用没有深入去看
计算框架:如离线处理HADOOP(MAPREDUCE),支持在线处理的Storm,迭代式计算框架Spark,流式处理框架S4等
分布式数据库:主要是K-V数据库,如HBASE,HyperTable?
下一步:资源统一管理与调度平台
考虑到资源利用率,运维成本,数据共享等因素,公司一般希望将所有这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,资源统一管理与调度平台应运而生。
资源统一管理和调度平台应该支持多种计算框架,有扩展性,容错性和资源的高利用率,典型代表是Mesos和YARN(下一代的HADOOP)
Mesos的架构图可以比较清楚说明资源统一管理与调度平台
由于现有系统的不成熟,有些公司也自己做了一下系统来监控和调度Hadoop的任务,从淘宝公布的资料来看,他们应该有一套,毕竟机器多了,监控很重要。
其中prom下面对应的就是hbase,MyFox对应的是Mysql等关系型数据库,通过TDDL解决数据自动切分,迁移等功能
在监控换管理方面,我们通过这个pdf文件了解一个大概。
![(please configure the [header_logo] section in trac.ini)](http://www1.pconline.com.cn/hr/2009/global/images/logo.gif)


