我正在尝试预测用户对餐厅的评分。
我拥有的data可以分为两个数据帧
第一个主要问题是:我该如何处理?
我已经尝试过使用用户数据框进行基本预测(使用RandomForest预测一列,而其他列则很少),这非常简单。这些数据框在逻辑上是不同的,我无法将它们合并为一个。
我的第二个问题是什么是处理分类数据(美食)的最佳方法?
我知道我可以创建一个映射函数并将每个值转换为索引,或者可以从熊猫中使用分类(可能还有其他几种方法)。有什么首选的方法吗?
答案 0 :(得分:0)
1)第二个数据集本质上是饭店的特征,可能会影响第一个数据集。开店时间或地点是客户考虑的重要因素。您可以使用它们,并在餐厅级别合并它们。它可以帮助您了解人们如何看待地理位置,时间安排,以反映他们对餐厅的评分。在这里,您甚至可以应用聚类分析,并看到不同的顾客对这些变量的敏感性不同。
例如对于经常出现的顾客(大部分外出就餐),如果他们将其作为日常工作的一部分,则可能会更注意位置/时间安排等。
您应该应用建模技术并进行多次仿真,以获取可变重要性框图,并查看在不同数据子集上进行计算时,位置/时间等变量的重要性得分是否存在较大差异-这将表明不同的客户敏感性
2)您可以查看标签编码还是一个热编码,甚至可以按原样使用变量?在这里有助于解释数据中有多少个级别。您可以查看pd.get_dummies
类的功能
希望这会有所帮助。