我应该在Python中将分类变量存储为整数或字母吗?

时间:2014-05-28 14:20:42

标签: python

我试图将生物病毒的序列表示为ATGC s,但我已经看到了代码为1234的代码。如果我们将它存储为整数[1,2,3,4]而不是字母[A,T,G,C],那么内存使用或代码速度是否存在差异?

对于那些可能需要更多上下文的人,我不会对数字/字母串做任何数学运算,除了在随机位置改变他们的身份(即突变),跟踪变异的位置来自字典中的参考序列(例如:{2:'G', 52:'A'}{2:3, 52:1}),并通过迭代参考序列并检查突变字典中的任何突变来导出任何生物病毒株的完整序列。 / p>

1 个答案:

答案 0 :(得分:1)

字符串或整数的使用取决于DNA序列的大小。我知道有些序列可能超过数百万个元素。 如果要处理大量信息,最好使用类型化整数。否则,如果更适合您,可以使用字符串。