我试图找到一种类似的方法来使用Python执行群集,就像我使用Weka一样。
我尝试了scipy,但它输入数组。
我所拥有的是一个由
组成的.csv文件objectId, attribute1, attribute2, .., attributeN
e.g. '1234', 0, 1, 0,1,1,1, ..., 0
Attribute1,2,..,N得到值0和1.
有没有办法加载前面提到的.csv文件并使用python库执行集群并获取每个objectId落入的集群?
我的.csv文件包含300.000个ojectId记录。
我已将.csv文件转换为weka的.arff格式,但执行群集需要长达6个小时,所以我正在寻找一种更快的方法来实现它并且希望python库可以更快。
提前致谢。
答案 0 :(得分:-1)
我不知道这是否是你想要的,但是:
阅读.csv:
f = open('yourcsv.csv', mode='r')
content = f.readlines()
现在您可以创建一个列表来添加所有信息
cluster = []
for line in content:
list = line.decode('utf-8').strip().split(',')
cluster[list[0]] = list[1 : len(list) - 1]
//现在您可以访问所有类似的信息
objectId = 'someIdentifier'
info = cluster[objectId]