Question

我正在使用python分析DNA /蛋白质序列数据并遇到问题。这是DNA序列表。

enter image description here

我想分析它们，因为group1和group2是对的。例如，AAATTT_TTTCCC或GGGCCC_GGAAA是成对的。

该序列数据有时显示相同的序列。例如，AAATTT出现三次，AGTC出现两次。我想计算这个重叠序列并总结如下。我想我应该使用熊猫，但不知道该怎么做。如果有人能帮助我，我会非常感激。

enter image description here

Answer 1

计算列中每个唯一值的出现次数：

# import pandas
import pandas as pd

# load data into Pandas dataframe
df = pd.read_csv("data.csv")

# get counts for each unique Group1 value
df["Group1"].value_counts()

总结与python的重叠

1 个答案: