Question

这是一个有问题的问题，这是我的第一个现实生活中的问题。机器学习实验如此简单，只有简单的问题。

我在CSV文件中看到USPTO批量数据：

Name                     Class  Subclass  Category  Subcategory
Lightpack circuitboard   E        1         4       9
Lego blocks              F        2         56      12
D/C connector            E        3         4       1
Colorful dog hat         D        6         10      1
Grandma's shoes          D        2         11      1
Low temp resistor        O        2         4       10

我想要的是能够运行受监督的机器学习环境来对公共对象进行分组（在我的实际数据中有很多这样的但是这是一个简单的例子）。我希望能够找到一组常见的类，子类，类别和子类别在所有电子产品中，并将它们分组为电子产品和电子产品。（即：Lightpack电路板，D / C连接器和低温电阻器）但我不确定如何继续。

目前我正在使用Python和sklearn进行更简单的建模，但我不确定如何测试和训练4个参数，并且没有标记设置可以比较（无验证）。

是否会建议创建一个伪标记集以使其受到监督？或者我可以采取无监督的方法吗？正如我之前所说，这是我在ML中的第一次真实测试。

Answer 1

无监督算法是您需要的。（Why so?）

您需要了解的关键概念是Multivariate distances以及如何计算它们。然后，您可以应用K-means群集。

您还可以阅读PCA并使用它。您可能需要缩放变量以使PCA正常工作。

Answer 2

正确地指出，您可以使用任何聚类算法（K-means或其变体，分层聚类，EM算法。该过程遵循一种简单易用的方法将数据点分类到特定数量的聚类。群集是未知的，因为K意味着您可以尝试使用不同级别的K并使用Elbow方法选择一个最合适或分层聚类将允许您找到最佳k

使用4个参数对数据集进行聚类和标记

2 个答案: