基于更多数据帧的预测

时间:2018-10-23 08:37:24

标签: python python-3.x pandas scikit-learn

我正在尝试预测用户对餐厅的评分。

我拥有的data可以分为两个数据帧

  • 有关用户的数据(口味,个人特征,家庭等)
  • 有关餐厅的数据(营业时间,位置,美食等)。

第一个主要问题是:我该如何处理?

我已经尝试过使用用户数据框进行基本预测(使用RandomForest预测一列,而其他列则很少),这非常简单。这些数据框在逻辑上是不同的,我无法将它们合并为一个。

进行这样的预测时最好的方法是什么?

我的第二个问题是什么是处理分类数据(美食)的最佳方法?

我知道我可以创建一个映射函数并将每个值转换为索引,或者可以从熊猫中使用分类(可能还有其他几种方法)。有什么首选的方法吗?

1 个答案:

答案 0 :(得分:0)

1)第二个数据集本质上是饭店的特征,可能会影响第一个数据集。开店时间或地点是客户考虑的重要因素。您可以使用它们,并在餐厅级别合并它们。它可以帮助您了解人们如何看待地理位置,时间安排,以反映他们对餐厅的评分。在这里,您甚至可以应用聚类分析,并看到不同的顾客对这些变量的敏感性不同。

例如对于经常出现的顾客(大部分外出就餐),如果他们将其作为日常工作的一部分,则可能会更注意位置/时间安排等。

您应该应用建模技术并进行多次仿真,以获取可变重要性框图,并查看在不同数据子集上进行计算时,位置/时间等变量的重要性得分是否存在较大差异-这将表明不同的客户敏感性

2)您可以查看标签编码还是一个热编码,甚至可以按原样使用变量?在这里有助于解释数据中有多少个级别。您可以查看pd.get_dummies类的功能

希望这会有所帮助。