我有一张二手车的大桌子。 标题如下所示:
maker | model | year | kilometers | transmission | gas_type | price
我做了一个预测模型,就像这样:每当我想知道汽车的价格时,我按制造商和模型过滤数据,然后运行二次回归,使用年和千米作为参数。
结果还可以,但不适用于每辆车。
问题是有不同的版本"对于同一制造商和型号。 (与简单版本,4WD或皮革座椅等完全不同)
如何识别差异?我可以使用某种类型的聚类来识别具有相同型号和制造商的汽车之间的不同版本。
任何帮助将不胜感激
答案 0 :(得分:0)
这不是集群问题,只是一个子模型功能。此外,您可能希望区分与模型无关的功能(4WD,真皮座椅,高级音响系统,天窗等)的子模型(标准版,豪华版,掀背车等)。子模型可能是单个特征(文本列),而选项可能是单个特征(布尔列)。
OP OPARIFICATION后更新
我看到:这些功能是输出,而不是输入。
是的,您可以使用群集。但是,这可能会也可能不会识别子模型(您的“版本”)。如果您只聚类具有非常相似的使用(千升)和所有其他功能相等的观察,您会发现一些有用的聚类。但是,这仅适用于版本是剩余价格变化的主要因素。您可能会发现您的群集也受到地理区域和其他因素的影响。