mahout – Trac

Context Navigation

官方主页 [ http://mahout.apache.org/ ] mahout里面有很多算法，包括分类，聚类，协作筛选等

使用mahout其实很简单，选择需要的算法，按要求准备输入数据，调整运行的参数，运行就可以了，基本不需要写多少代码
如果要建立自己的部分规则才需要写代码
在测试协同过程中，安装文档中的步骤，使用中等数据量，解压后100兆左右，在我们集群中速度不会太慢

但使用我们自己的数据做分布式推荐算法的时候会出现oom的错误，查了一些网上的资料，别人在做的时候会把map的heap size调得比较大，超过12G，而我们的map，缺省为2G,所以做协同是一个吃内存的操作