在带有大型csv文件的Python中使用Kmodes

时间:2019-05-15 18:07:27

标签: python numpy machine-learning unsupervised-learning

我想为遇到的问题提供一些帮助。我有一个很大的csv文件(6239292,5),并且想要执行一种无监督的机器学习技术(kmodes)。我的代码是这样的:

import numpy as np
import pandas as pd
print("initialising")


syms = np.genfromtxt('foo.csv', delimiter = ';', dtype=str, skip_header=1, invalid_raise=False)[:, 0:]

print(syms.shape)

X = np.genfromtxt('foo.csv',dtype=object, delimiter=';', invalid_raise=False, skip_header=1)[:, 1:]

X[1:, 0] = X[1:, 0].astype(float) 

from kmodes.kprototypes import KPrototypes

print("Imported successfully")
kproto = KPrototypes(n_clusters=6, init='random', n_init=2, verbose=2)
clusters = kproto.fit_predict(X, categorical=[2,1,3,])

由于文件的大小,它永远都在占用。有什么我可以用来减少时间的技术吗?预先谢谢你!

0 个答案:

没有答案