如何将scikit-learn(make_circle)替换为我自己的数据集?

时间:2019-04-12 10:23:30

标签: python machine-learning scikit-learn

我正在尝试将自己的数据集集成到scikit learning中。我的数据集是分类数据,我编码为数值数据,它具有3列和100行。当前的scikit学习数据集是使用make_circle()创建的。

X, Y = make_circles(n_samples=n, noise=0.07, factor=0.4) 

我做了什么?

我使用熊猫读取了我的数据集。

col_names = ['Relation', 'Entity1', 'Entity2']
# load dataset
pima = pd.read_csv("encode.csv", header=None, names=col_names)
pima.head()

当前输出:

Relation    Entity1     Entity2
 3       0       0
 0       1       2
 2       9       0
 3       5       3
 1       4       1
 2       6       0
 3       3       4

但是我想将基于make_circle()的数据集添加到二维空间中。

1 个答案:

答案 0 :(得分:1)

您必须应用降维并将其缩减为2维。

您可以使用PCAUMAP之类的东西。

选中this post。它应该非常有用。

使用UMAP:

import umap

reduced = umap.UMAP().fit_transform(pima)

使用PCA:

from sklearn.decomposition import PCA

pca = PCA(n_components=2)
reduced = pca.fit_tranform(pima)