wiki:concept

现在流行的分布式计算系统一般包括:

分布式文件系统:如HDFS,Marp,Ceph,
其他的分布式文件系统和HADOOP集合的不是很好,适合做图片服务器或者网盘一类的应用没有深入去看

计算框架:如离线处理HADOOP(MAPREDUCE),支持在线处理的Storm,迭代式计算框架Spark,流式处理框架S4等

分布式数据库:主要是K-V数据库,如HBASE,HyperTable?

下一步:资源统一管理与调度平台

考虑到资源利用率,运维成本,数据共享等因素,公司一般希望将所有这些框架部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用,资源统一管理与调度平台应运而生。

资源统一管理和调度平台应该支持多种计算框架,有扩展性,容错性和资源的高利用率,典型代表是Mesos和YARN(下一代的HADOOP)

Mesos的架构图可以比较清楚说明资源统一管理与调度平台

mesos

由于现有系统的不成熟,有些公司也自己做了一下系统来监控和调度Hadoop的任务,从淘宝公布的资料来看,他们应该有一套,毕竟机器多了,监控很重要。


其中prom下面对应的就是hbase,MyFox对应的是Mysql等关系型数据库,通过TDDL解决数据自动切分,迁移等功能

在监控换管理方面,我们通过这个pdf文件了解一个大概。

Attachments