计算Pandas数据框中的唯一名称

时间:2016-06-16 18:32:56

标签: python pandas dataframe iteration

我已将大数据帧简化为这个简单的数据框:

IDX POS     REF ALT
13  633     C   A
15  643     C   T
42  2015    G   A
43  2016    G   A
151 9538    T   C
154 9542    TC  TCC,T
169 10041   T   A
170 10041   T   TAA,TA

数据来自具有核苷酸位置的基因组区域和参考基因组核苷酸以及来自不同人的替代核苷酸用于相同位置。我有一些职位(9542和10041)有两种不同的核苷酸替代品。

我想迭代ALT列并计算唯一核苷酸的数量,以便在计数中创建一个单独的列。我还没有看到如何使用python pandas完成这项工作。

新数据框将如下所示:

IDX POS     REF ALT   COUNT
13  633     C   A        1
15  643     C   T        1
42  2015    G   A        1
43  2016    G   A        1
151 9538    T   C        1
154 9542    TC  TCC,T    2
169 10041   T   A        1
170 10041   T   TAA,TA   2

如何用Pandas(或只是python)做到这一点?

谢谢。

罗德里戈

1 个答案:

答案 0 :(得分:2)

count逗号并添加1

df['COUNT'] = df.ALT.str.count(',') + 1