官方主页 [ http://mahout.apache.org/ ]
mahout里面有很多算法,包括分类,聚类,协作筛选 等
使用mahout其实很简单,选择需要的算法,按要求准备输入数据,调整运行的参数,运行就可以了,基本不需要写多少代码
如果要建立自己的部分规则才需要写代码
在测试协同过程中,安装文档中的步骤,使用中等数据量,解压后100兆左右,在我们集群中速度不会太慢
但使用我们自己的数据做分布式推荐算法的时候会出现oom的错误,查了一些网上的资料,别人在做的时候会把map的heap size调得比较大,超过12G,而我们的map,缺省为2G,所以做协同是一个吃内存的操作
http://www.ibm.com/developerworks/java/library/j-mahout-scaling/
![(please configure the [header_logo] section in trac.ini)](http://www1.pconline.com.cn/hr/2009/global/images/logo.gif)