我有一只大熊猫DataFrame
,如下所示
clusters
0 [4]
1 [9, 14, 16, 19]
2 [6, 7, 10, 17, 18, 20]
3 [1, 2, 3, 5, 8, 11, 12, 13, 15]
我需要分别只获取群集列中的整数值。如下所示(这可以是四个列表,不需要另一个DataFrame
)
0 4
1 9, 14, 16, 19
2 6, 7, 10, 17, 18, 20
3 1, 2, 3, 5, 8, 11, 12, 13, 15
我尝试了不同的东西。无法达到预期的产量。
In [36]: clustlist = list(firstclusters.clusters.values)
Out[36]:
[array([4]), array([ 9, 14, 16, 19]), array([ 6, 7, 10, 17, 18, 20]), array([ 1, 2, 3, 5, 8, 11, 12, 13, 15])]
In [37]: np.ravel(clustlist)
Out[37]:
[array([4]) array([ 9, 14, 16, 19]) array([ 6, 7, 10, 17, 18, 20])
array([ 1, 2, 3, 5, 8, 11, 12, 13, 15])]
In [38]: np.hstack(clustlist)
Out[38]:
[ 4 9 14 16 19 6 7 10 17 18 20 1 2 3 5 8 11 12 13 15]
答案 0 :(得分:8)
如果每个项目只是一个列表,您可以使用tolist Series方法:
In [11]: df.clusters.tolist()
Out[11]: [[4], [9, 14, 16, 19], [6, 7, 10, 17, 18, 20], [1, 2, 3, 5, 8, 11, 12, 13, 15]]
或者,如果这些是numpy数组,则需要首先对每个项目应用tolist:
In [12]: df.clusters.apply(np.ndarray.tolist).tolist()
Out[12]: [[4], [9, 14, 16, 19], [6, 7, 10, 17, 18, 20], [1, 2, 3, 5, 8, 11, 12, 13, 15]]