我有一个数据集,你可以找到(更新的)文件here,其中包含不同办公楼的许多不同特征,包括它们的表面积和在那里工作的人数。总共有大约200条记录。我想使用一种算法,可以使用上面的数据集进行训练,以便能够预测不在集合中的建筑物的电力消耗(在列表中给出)#k;')
我使用python中的scikit库(线性回归,Ridge,Lasso,SVC等)尝试了大多数可能的机器学习算法,以预测连续变量。 Surface_area和工人数量具有coorelation值,目标变量在0.3-0.4之间,因此我认为它们是模型的良好特征,并将它们包含在模型的训练中。然而,我有大约13350的平均绝对误差和R平方值约0.22-0.35,这一点都不好。
如果有人能给我一些建议,或者你可以检查一下数据集并运行一些算法,我将非常感激。我应该使用什么类型的预处理,以及什么类型的算法?数据集的数量是否太低,无法训练回归模型来预测连续变量?
任何反馈都会有所帮助,因为我不熟悉机器学习:)
答案 0 :(得分:0)
在这些机器学习问题中应该做的第一件事是理解数据。是的,数据集中的要素数量很少,是的,数据样本的数量非常少,但重要的是尽我们所能,尽我们所能。
数据集标题使用的语言不是英语,重要的是将其转换为社区中大多数人都能理解的语言(在本例中为英语)。在做了一些修补之后,我发现使用的语言是荷兰语。
数据集中缺少一些关键功能。从建筑物中的楼层数量到明显的工作时间等不明显的事物。在我看来,Surface Area和工作人员数量是最重要的功能,但是您错过了一个名为building_function的功能(使用Google Translate之后),它告诉我们建筑的目的是什么。直观地说,这应该与功耗有很大的相关性。工业往往比普通家庭使用更多的电力。翻译后,我发现主要类型是住宅,办公室,住宿和会议。因此,必须将此特征编码为标称变量以训练模型。
hoofsbi的另一个特点似乎也有一些差异。但我不知道这个功能意味着什么。
如果您可以翻译数据中的标题并共享它,我将能够为您提供一些代码来执行此回归任务。在这些任务中,了解数据是什么从而执行特征工程非常重要。