来自.csv文件的Python集群作为输入

时间:2016-03-22 17:42:46

标签: python csv cluster-analysis weka

我试图找到一种类似的方法来使用Python执行群集,就像我使用Weka一样。

我尝试了scipy,但它输入数组。

我所拥有的是一个由

组成的.csv文件
objectId, attribute1, attribute2, .., attributeN
e.g. '1234', 0, 1, 0,1,1,1, ..., 0

Attribute1,2,..,N得到值0和1.

有没有办法加载前面提到的.csv文件并使用python库执行集群并获取每个objectId落入的集群?

我的.csv文件包含300.000个ojectId记录。

我已将.csv文件转换为weka的.arff格式,但执行群集需要长达6个小时,所以我正在寻找一种更快的方法来实现它并且希望python库可以更快。

提前致谢。

1 个答案:

答案 0 :(得分:-1)

我不知道这是否是你想要的,但是:

阅读.csv:

f = open('yourcsv.csv', mode='r')

content = f.readlines()

现在您可以创建一个列表来添加所有信息

cluster = []

for line in content:
  list = line.decode('utf-8').strip().split(',')
  cluster[list[0]] = list[1 : len(list) - 1]

//现在您可以访问所有类似的信息

objectId = 'someIdentifier'

info = cluster[objectId]