如何基于阈值构建对熊猫数据帧的集群迭代?

时间:2019-11-17 19:48:24

标签: pandas loops dataframe networking cluster-computing

我有一个csv文件,其中包含两点之间的相关值,基于我连接节点的最高相关值。但是我想基于一些相关值阈值进行循环,然后通过连接节点来构建集群。 这是我的csv文件:第一列是相关值列,第二列和第三列是节点信息。

corr

我可以一次更改阈值并构建集群,但不能以嵌套循环的方式进行。 我尝试过:

x= []
y= []
 for threshold in np.arange(0.5, 0.02, 0.9):
df = pd.read_csv('/home/ruby/Desktop/csv/edgelist_0.46.csv')
df = df[(df['corr']>=threshold)]
df = df.drop('corr', 1)
g = nx.from_pandas_edgelist(df, source='col1', target='col2') 
largest_cc = max(nx.connected_component_subgraphs(g),key=len)
y.append(len(largest_cc))
x.append(threshold)

df1 = pd.DataFrame(data = y) df2 = pd.DataFrame(data = x)

但是它不起作用,数据框为空。可能是由于一些愚蠢的错误而导致的。 请帮忙。

0 个答案:

没有答案