总结与python的重叠

时间:2017-01-27 17:08:38

标签: python pandas overlap

我正在使用python分析DNA /蛋白质序列数据并遇到问题。 这是DNA序列表。

enter image description here

我想分析它们,因为group1和group2是对的。 例如,AAATTT_TTTCCC或GGGCCC_GGAAA是成对的。

该序列数据有时显示相同的序列。 例如,AAATTT出现三次,AGTC出现两次。 我想计算这个重叠序列并总结如下。 我想我应该使用熊猫,但不知道该怎么做。 如果有人能帮助我,我会非常感激。

enter image description here

1 个答案:

答案 0 :(得分:1)

计算列中每个唯一值的出现次数:

# import pandas
import pandas as pd

# load data into Pandas dataframe
df = pd.read_csv("data.csv")

# get counts for each unique Group1 value
df["Group1"].value_counts()