我正在使用Spark / Python / Scala。我的数据集包含以下列:country(28个不同的值),Customer_type(10个不同的值),Product_Type(36个不同的值),Quantity bin(5个不同的值),我称这些列为feature。,加上price。例如:
Country, Customer, Product, Qty, Price
US, High Spend, A1, Low, 2.5$
US, Mid Spend, A3, Low, 4.2$
UK, High Spend, A1, Mid, 1.8$
....
我可以根据以下功能的不同组合来聚类我的数据集:(国家,产品)或(国家,客户)或(国家,产品,客户)等。群集中的更多功能使我在每个群集中的差异更小然而,这会导致更多数量的簇,这是不希望的。因此,在集群中的集群数和方差之间进行权衡。
我想知道是否有一种方法可以根据它们对方差的影响对这些特征进行排名......例如,国家,产品,客户,数量意味着国家对减少集群中的差异产生最大影响,下一个产品,另外我认为功能之间的相关性确实很重要(例如,国家,产品)可能会给我一个更好的差异而不是(国家,客户)。有没有提供这种信息的方法?
谢谢, 阿米尔