是否可以配置Mahout在通过Hadoop执行推荐作业时从Cassandra集群检索输入数据?
我已经找到了关于这个主题的一些资源 - 参见http://www.acunu.com/2/post/2011/08/scaling-up-cassandra-and-mahout-with-hadoop.html,但那里描述的迹象似乎不起作用(在mahout-0.6和mahout-0.7上都尝试过)。对于istance itemIDIndexPath变量似乎不存在于RecommenderJob类中,也不存在于它扩展的抽象类中。
答案 0 :(得分:0)
我尝试对Cassandra运行Pig / Hive查询,发现它在加载时相当不稳定。 问题在于Cassandra的阅读路径效率很低,特别是在Thrift上。我建议将数据作为中间步骤转储到HDFS并从那里处理