应用错误收集

我有一个数据集，你可以找到（更新的）文件here，其中包含不同办公楼的许多不同特征，包括它们的表面积和在那里工作的人数。总共有大约200条记录。我想使用一种算法，可以使用上面的数据集进行训练，以便能够预测不在集合中的建筑物的电力消耗（在列表中给出）＃k;＆＃39;）

我使用python中的scikit库（线性回归，Ridge，Lasso，SVC等）尝试了大多数可能的机器学习算法，以预测连续变量。 Surface_area和工人数量具有coorelation值，目标变量在0.3-0.4之间，因此我认为它们是模型的良好特征，并将它们包含在模型的训练中。然而，我有大约13350的平均绝对误差和R平方值约0.22-0.35，这一点都不好。

如果有人能给我一些建议，或者你可以检查一下数据集并运行一些算法，我将非常感激。我应该使用什么类型的预处理，以及什么类型的算法？数据集的数量是否太低，无法训练回归模型来预测连续变量？

任何反馈都会有所帮助，因为我不熟悉机器学习:)

在这些机器学习问题中应该做的第一件事是理解数据。是的，数据集中的要素数量很少，是的，数据样本的数量非常少，但重要的是尽我们所能，尽我们所能。

数据集标题使用的语言不是英语，重要的是将其转换为社区中大多数人都能理解的语言（在本例中为英语）。在做了一些修补之后，我发现使用的语言是荷兰语。

数据集中缺少一些关键功能。从建筑物中的楼层数量到明显的工作时间等不明显的事物。在我看来，Surface Area和工作人员数量是最重要的功能，但是您错过了一个名为building_function的功能（使用Google Translate之后），它告诉我们建筑的目的是什么。直观地说，这应该与功耗有很大的相关性。工业往往比普通家庭使用更多的电力。翻译后，我发现主要类型是住宅，办公室，住宿和会议。因此，必须将此特征编码为标称变量以训练模型。

hoofsbi的另一个特点似乎也有一些差异。但我不知道这个功能意味着什么。

如果您可以翻译数据中的标题并共享它，我将能够为您提供一些代码来执行此回归任务。在这些任务中，了解数据是什么从而执行特征工程非常重要。

预测不同建筑物的能耗

1 个答案: