这是一个有问题的问题,这是我的第一个现实生活中的问题。机器学习实验如此简单,只有简单的问题。
我在CSV文件中看到USPTO批量数据:
Name Class Subclass Category Subcategory
Lightpack circuitboard E 1 4 9
Lego blocks F 2 56 12
D/C connector E 3 4 1
Colorful dog hat D 6 10 1
Grandma's shoes D 2 11 1
Low temp resistor O 2 4 10
我想要的是能够运行受监督的机器学习环境来对公共对象进行分组(在我的实际数据中有很多这样的但是这是一个简单的例子)。我希望能够找到一组常见的类,子类,类别和子类别在所有电子产品中,并将它们分组为电子产品和电子产品。 (即:Lightpack电路板,D / C连接器和低温电阻器)但我不确定如何继续。
目前我正在使用Python和sklearn进行更简单的建模,但我不确定如何测试和训练4个参数,并且没有标记设置可以比较(无验证)。
是否会建议创建一个伪标记集以使其受到监督?或者我可以采取无监督的方法吗?正如我之前所说,这是我在ML中的第一次真实测试。
答案 0 :(得分:3)
无监督算法是您需要的。(Why so?)
您需要了解的关键概念是Multivariate distances以及如何计算它们。然后,您可以应用K-means群集。
您还可以阅读PCA并使用它。您可能需要缩放变量以使PCA正常工作。
答案 1 :(得分:1)
正确地指出,您可以使用任何聚类算法(K-means或其变体,分层聚类,EM算法。该过程遵循一种简单易用的方法将数据点分类到特定数量的聚类。群集是未知的,因为K意味着您可以尝试使用不同级别的K并使用Elbow方法选择一个最合适或分层聚类将允许您找到最佳k