我目前是Apache Mahout的非常随意的用户,我正在考虑购买这本书Mahout in Action。不幸的是,我很难理解这本书的价值 - 并且看到它是一本Manning Early Access Program书(因此目前仅作为beta版电子书出版),我我不能在书店里看看。
任何人都可以推荐这个作为一个好的(或不太好的)指南,以加快Mahout和/或其他可以补充Mahout网站的来源的速度吗?
答案 0 :(得分:21)
作为Mahout提交者和本书的共同作者,我认为这是值得的。 ; - )
但严重的是,你在做什么?也许我们可以为您指出一些资源。
Mahout的某些方面很难自行解决。我们努力回答邮件列表中的问题,但它可以帮助您获得示例代码和路线图。如果没有其中一些,甚至很难提出一个好问题。
答案 1 :(得分:11)
此处也是合着者。作为“从马的嘴里”,它可能是Mahout本身最完整的写作。有一些很好的博客文章,当然还有很多关于机器学习的好书(我喜欢Collective Intelligence in Action作为广泛的简介)。 user@mahout.apache.org有一些人说他们喜欢FWIW这本书,书籍论坛也是如此(http://www.manning-sandbox.com/forum.jspa?forumID=623)我想你可以退货电子书,如果它不是你想要的。它肯定有6章关于聚类。
答案 2 :(得分:3)
这本书的很多部分已经过时,一个或两个版本落后于现在。此外,文中还有一些错误,特别是在示例中。在尝试复制讨论结果时,这可能会使事情变得有点棘手。
此外,你应该知道mahout最成熟的部分,推荐系统,品味,不是分布式的。我不确定为什么这与其余的mahout打包在一起。这是一个关于软件包的抱怨,而不是mahout本身。
答案 3 :(得分:3)
目前最好的那里。可能与产品一样成熟。有些方面比其他方面更好,洞察底层实现是好的,实用的方法来启动和运行Linux,mac osx等初学者不是那么多。定义一个关于如何更新推荐人的明确策略是不确定的。生产实例相当薄。良好的起点,但你需要更多。作者尽力提供帮助,但这是一个非常新的产品。总而言之,是的,买它。
答案 4 :(得分:2)
答案 5 :(得分:0)
您也可以考虑阅读Paco Nathan在Cascading中的企业数据工作流程。您可以在从R或SAS导出的群集上运行PMML。对于Mahout in Action来说,这并不是什么坏事,作者做得很好,并且明确地投入了大量的时间和精力使它变得有意义和有趣。这更像是一个超越Mahout的建议。如果它更加用户友好,它目前还没有那种牵引力。
目前,Mahout的用户体验有点不稳定,并没有真正让您清楚地了解如何开发和更新智能系统及其生命周期,IMO。 Mahout对学术界来说也不是真的可以接受,他们更有可能使用Matlab或R.在Mahout文档中,随机森林实现几乎不起作用,文档有错误的例子等等......这令人沮丧,并且它的并行性和可扩展性Mahout程序依赖于算法。我现在看不到Mahout在任何地方都是稳固的,因为它是IMO。我希望我错了!