应用错误收集

我正在尝试预测用户对餐厅的评分。

我拥有的data可以分为两个数据帧

第一个主要问题是：我该如何处理？

我已经尝试过使用用户数据框进行基本预测（使用RandomForest预测一列，而其他列则很少），这非常简单。这些数据框在逻辑上是不同的，我无法将它们合并为一个。

我的第二个问题是什么是处理分类数据（美食）的最佳方法？

我知道我可以创建一个映射函数并将每个值转换为索引，或者可以从熊猫中使用分类（可能还有其他几种方法）。有什么首选的方法吗？

1）第二个数据集本质上是饭店的特征，可能会影响第一个数据集。开店时间或地点是客户考虑的重要因素。您可以使用它们，并在餐厅级别合并它们。它可以帮助您了解人们如何看待地理位置，时间安排，以反映他们对餐厅的评分。在这里，您甚至可以应用聚类分析，并看到不同的顾客对这些变量的敏感性不同。

例如对于经常出现的顾客（大部分外出就餐），如果他们将其作为日常工作的一部分，则可能会更注意位置/时间安排等。

您应该应用建模技术并进行多次仿真，以获取可变重要性框图，并查看在不同数据子集上进行计算时，位置/时间等变量的重要性得分是否存在较大差异-这将表明不同的客户敏感性

2）您可以查看标签编码还是一个热编码，甚至可以按原样使用变量？在这里有助于解释数据中有多少个级别。您可以查看pd.get_dummies类的功能

希望这会有所帮助。