Question

我正在尝试将自己的数据集集成到scikit learning中。我的数据集是分类数据，我编码为数值数据，它具有3列和100行。当前的scikit学习数据集是使用make_circle（）创建的。

X, Y = make_circles(n_samples=n, noise=0.07, factor=0.4)

我做了什么？

我使用熊猫读取了我的数据集。

col_names = ['Relation', 'Entity1', 'Entity2']
# load dataset
pima = pd.read_csv("encode.csv", header=None, names=col_names)
pima.head()

当前输出：

Relation    Entity1     Entity2
 3       0       0
 0       1       2
 2       9       0
 3       5       3
 1       4       1
 2       6       0
 3       3       4

但是我想将基于make_circle（）的数据集添加到二维空间中。

Answer 1

您必须应用降维并将其缩减为2维。

您可以使用PCA或UMAP之类的东西。

选中this post。它应该非常有用。

使用UMAP：

import umap

reduced = umap.UMAP().fit_transform(pima)

使用PCA：

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
reduced = pca.fit_tranform(pima)

如何将scikit-learn（make_circle）替换为我自己的数据集？

1 个答案: