总体而言,我真的是数据科学的新手,我目前正在尝试对功耗数据使用UMAP进行半监督学习,因为我想对在特定时间间隔内打开哪些设备进行分类。数据集如下所示:
| time | value | label | description |
------------------------------------------------------
| 1582761600 | 4628.8 | 1 | 2 ACs, 4 computers |
| 1582761601 | 4624.98 | 2 | 1 AC, 2 computers |
| 1582761602 | 4624.98 | | |
请注意,并非所有读数都有标签和说明。我已经在https://umap-learn.readthedocs.io/en/latest/supervised.html上阅读了有关使用UMAP进行半监督学习的文档,问题在于他们使用了fashion-mnist数据集(https://github.com/zalandoresearch/fashion-mnist),并且其数据集格式与我目前使用的数据集格式不同。以下面的代码片段为例:
mndata = MNIST('fashion-mnist/data/fashion')
train, train_labels = mndata.load_training()
test, test_labels = mndata.load_testing()
data = np.array(np.vstack([train, test]), dtype=np.float64) / 255.0
target = np.hstack([train_labels, test_labels])
classes = [
'T-shirt/top',
'Trouser',
'Pullover',
'Dress',
'Coat',
'Sandal',
'Shirt',
'Sneaker',
'Bag',
'Ankle boot']
我试图寻找有关代码各部分无效的详细解释。到目前为止,我能够以80到20的比率分离训练和测试数据集,但除此之外,我找不到任何可以在普通.csv文件中执行此操作的教程。我的问题是如何使用数据标签,以便可以对已经可以使用UMAP绘制的聚类进行分类。非常感谢!如果有任何不清楚的地方,我会很乐意调整这篇文章。