Question

我试图找到一种类似的方法来使用Python执行群集，就像我使用Weka一样。

我尝试了scipy，但它输入数组。

我所拥有的是一个由

组成的.csv文件

objectId, attribute1, attribute2, .., attributeN
e.g. '1234', 0, 1, 0,1,1,1, ..., 0

Attribute1,2，..，N得到值0和1.

有没有办法加载前面提到的.csv文件并使用python库执行集群并获取每个objectId落入的集群？

我的.csv文件包含300.000个ojectId记录。

我已将.csv文件转换为weka的.arff格式，但执行群集需要长达6个小时，所以我正在寻找一种更快的方法来实现它并且希望python库可以更快。

提前致谢。

Answer 1

我不知道这是否是你想要的，但是：

阅读.csv：

f = open('yourcsv.csv', mode='r')

content = f.readlines()

现在您可以创建一个列表来添加所有信息

cluster = []

for line in content:
  list = line.decode('utf-8').strip().split(',')
  cluster[list[0]] = list[1 : len(list) - 1]

//现在您可以访问所有类似的信息

objectId = 'someIdentifier'

info = cluster[objectId]