我有航空旅行社的用户数据,根据这些数据,我希望为用户获得某些实体的最优先值。我的数据集的格式为 -
userId From TO Meal Carrier Travel type
MT001 London Abu Dhabi Non Veg Lufthansa International
MT001 Abu Dhabi Beijing Veg Lufthansa International
MT001 New York Chicago Non Veg American Airlines Domestic
MT002 New York Texas Veg American Airlines Domestic
现在我想获得用餐MT001的首选值,用于膳食,载体列并对该用户进行分类。我知道我们可以使用SQL获取这些值,但是可以使用mahout框架来实现吗?我不想实时得到结果,我想的是像批处理作业那样预先处理数据并将结果存储在我们可以立即获取结果的地方。
我知道mahout支持分类,我们可以使用基于项目的推荐等方式获得首选值。另外我打算转到hadoop,所以在这种情况下mahout会有多好的选择。
答案 0 :(得分:1)
我认为你在这里寻找的是基于内容的推荐,Mahout确实支持基于内容的推荐,但我不确定它是否是实现它的最佳框架,你将不得不重写一个地狱很多的类来实现它根据你的计划工作。
找到了这个 - Extend Mahout for new dataset