hadoop - 用Hadoop扩展Cassandra和Mahout

用Hadoop扩展Cassandra和Mahout

时间：2013-07-07 07:12:08

标签： hadoop cassandra mahout

是否可以配置Mahout在通过Hadoop执行推荐作业时从Cassandra集群检索输入数据？

我已经找到了关于这个主题的一些资源 - 参见http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html，但那里描述的迹象似乎不起作用（在mahout-0.6和mahout-0.7上都尝试过）。对于istance itemIDIndexPath变量似乎不存在于RecommenderJob类中，也不存在于它扩展的抽象类中。

1 个答案:

答案 0 :(得分：0)

我尝试对Cassandra运行Pig / Hive查询，发现它在加载时相当不稳定。问题在于Cassandra的阅读路径效率很低，特别是在Thrift上。我建议将数据作为中间步骤转储到HDFS并从那里处理

是否值得购买Mahout in Action以加快Mahout的速度，还是有其他更好的消息来源？
使用mahout和hadoop
使用mahout seqdumper转储序列文件
mahout不会启动。与hadoop和mahout之间的兼容版本有什么关系？
Mahout 0.7和cdh4
Mahout 0.8和hadoop 0.21
用Hadoop扩展Cassandra和Mahout
CSV文件中的序列和向量
无法在Hadoop上停止datanode和namenode
如何将Hadoop与Mahout集成？

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？