聚类还是推荐?

时间:2015-09-22 09:44:23

标签: hadoop cluster-analysis mahout mahout-recommender

我目前正致力于基于大量数据的匹配算法的概念。这是我的第一次。

就是这样:

  • 我们有“House”类型的X对象,其中包含大小,位置等功能
  • 我们有人在寻找房屋,他们的搜索包括大小,位置等

=>我们希望根据他们的喜好(大小,位置,......)将房屋与人匹配

什么是更好的方法?

1)聚集所有房屋并检查该人(想要购买)所属的集群(匹配具有相同特征值的人/房屋,如大小和位置) 2)建立一个推荐人,这也需要许多过去在我们的HDSF中买房的人

使用哪种技术堆栈来获得更好的方法?

我目前正在考虑:Hadoop / Hive(存储) - Sqoop(将数据存入存储) - Mahout(分析)

非常感谢您的帮助!提前谢谢!

1 个答案:

答案 0 :(得分:0)

我建议,基于你没有用户匹配房屋的事实,最好的方法是使用集群,一旦你有一致的集群,为每个集群分配一个类,减少分类问题。

关于堆栈,它在很大程度上取决于个人喜好和可用硬件。