使用4个参数对数据集进行聚类和标记

时间:2018-02-16 00:27:41

标签: python csv machine-learning classification

这是一个有问题的问题,这是我的第一个现实生活中的问题。机器学习实验如此简单,只有简单的问题。

我在CSV文件中看到USPTO批量数据:

Name                     Class  Subclass  Category  Subcategory
Lightpack circuitboard   E        1         4       9
Lego blocks              F        2         56      12
D/C connector            E        3         4       1
Colorful dog hat         D        6         10      1
Grandma's shoes          D        2         11      1
Low temp resistor        O        2         4       10

我想要的是能够运行受监督的机器学习环境来对公共对象进行分组(在我的实际数据中有很多这样的但是这是一个简单的例子)。我希望能够找到一组常见的子类类别子类别在所有电子产品中,并将它们分组为电子产品和电子产品。 (即:Lightpack电路板,D / C连接器和低温电阻器)但我不确定如何继续。

目前我正在使用Python和sklearn进行更简单的建模,但我不确定如何测试和训练4个参数,并且没有标记设置可以比较(无验证)。

是否会建议创建一个伪标记集以使其受到监督?或者我可以采取无监督的方法吗?正如我之前所说,这是我在ML中的第一次真实测试。

2 个答案:

答案 0 :(得分:3)

无监督算法是您需要的。(Why so?

您需要了解的关键概念是Multivariate distances以及如何计算它们。然后,您可以应用K-means群集。

您还可以阅读PCA并使用它。您可能需要缩放变量以使PCA正常工作。

答案 1 :(得分:1)

正确地指出,您可以使用任何聚类算法(K-means或其变体,分层聚类,EM算法。该过程遵循一种简单易用的方法将数据点分类到特定数量的聚类。群集是未知的,因为K意味着您可以尝试使用不同级别的K并使用Elbow方法选择一个最合适或分层聚类将允许您找到最佳k