Question

总体而言，我真的是数据科学的新手，我目前正在尝试对功耗数据使用UMAP进行半监督学习，因为我想对在特定时间间隔内打开哪些设备进行分类。数据集如下所示：

| time       | value   | label |      description    |
------------------------------------------------------    
| 1582761600 | 4628.8  |   1   |  2 ACs, 4 computers |
| 1582761601 | 4624.98 |   2   |  1 AC, 2 computers  | 
| 1582761602 | 4624.98 |       |                     |

请注意，并非所有读数都有标签和说明。我已经在https://umap-learn.readthedocs.io/en/latest/supervised.html上阅读了有关使用UMAP进行半监督学习的文档，问题在于他们使用了fashion-mnist数据集（https://github.com/zalandoresearch/fashion-mnist），并且其数据集格式与我目前使用的数据集格式不同。以下面的代码片段为例：

mndata = MNIST('fashion-mnist/data/fashion')
train, train_labels = mndata.load_training()
test, test_labels = mndata.load_testing()
data = np.array(np.vstack([train, test]), dtype=np.float64) / 255.0
target = np.hstack([train_labels, test_labels])
classes = [
'T-shirt/top',
'Trouser',
'Pullover',
'Dress',
'Coat',
'Sandal',
'Shirt',
'Sneaker',
'Bag',
'Ankle boot']

我试图寻找有关代码各部分无效的详细解释。到目前为止，我能够以80到20的比率分离训练和测试数据集，但除此之外，我找不到任何可以在普通.csv文件中执行此操作的教程。我的问题是如何使用数据标签，以便可以对已经可以使用UMAP绘制的聚类进行分类。非常感谢！如果有任何不清楚的地方，我会很乐意调整这篇文章。

如何在部分标签（半监督UMAP）中使用分类数据标签？

0 个答案: