如何在部分标签(半监督UMAP)中使用分类数据标签?

时间:2020-05-18 12:47:22

标签: data-science supervised-learning runumap

总体而言,我真的是数据科学的新手,我目前正在尝试对功耗数据使用UMAP进行半监督学习,因为我想对在特定时间间隔内打开哪些设备进行分类。数据集如下所示:

| time       | value   | label |      description    |
------------------------------------------------------    
| 1582761600 | 4628.8  |   1   |  2 ACs, 4 computers |
| 1582761601 | 4624.98 |   2   |  1 AC, 2 computers  | 
| 1582761602 | 4624.98 |       |                     | 

请注意,并非所有读数都有标签和说明。我已经在https://umap-learn.readthedocs.io/en/latest/supervised.html上阅读了有关使用UMAP进行半监督学习的文档,问题在于他们使用了fashion-mnist数据集(https://github.com/zalandoresearch/fashion-mnist),并且其数据集格式与我目前使用的数据集格式不同。以下面的代码片段为例:

mndata = MNIST('fashion-mnist/data/fashion')
train, train_labels = mndata.load_training()
test, test_labels = mndata.load_testing()
data = np.array(np.vstack([train, test]), dtype=np.float64) / 255.0
target = np.hstack([train_labels, test_labels])
classes = [
'T-shirt/top',
'Trouser',
'Pullover',
'Dress',
'Coat',
'Sandal',
'Shirt',
'Sneaker',
'Bag',
'Ankle boot']

我试图寻找有关代码各部分无效的详细解释。到目前为止,我能够以80到20的比率分离训练和测试数据集,但除此之外,我找不到任何可以在普通.csv文件中执行此操作的教程。我的问题是如何使用数据标签,以便可以对已经可以使用UMAP绘制的聚类进行分类。非常感谢!如果有任何不清楚的地方,我会很乐意调整这篇文章。

0 个答案:

没有答案