我正在尝试编写一个脚本来计算短字符串或“kmer”的所有可能的模糊字符串匹配匹配,并且在Python 2.7.X中运行的相同代码给出了一个非确定性的答案使用Python 3.3.X,我无法弄清楚原因。
我在我的代码中迭代字典,itertools.product和itertools.combinations,但是我遍历所有这些字典完成而没有中断或继续。另外,我将所有结果存储在一个单独的字典中,而不是我正在迭代的字典中。简而言之 - 我没有犯任何明显的错误,为什么Python2和Python3之间的行为有所不同?
示例,稍微简化了以下代码:
import itertools
def find_best_fuzzy_kmer( kmers ):
for kmer, value in kmers.items():
for similar_kmer in permute_string( kmer, m ):
# Tabulate Kmer
def permute_string( query, m ):
query_list = list(query)
output = set() # hold output
for i in range(m+1):
# pre-calculate the possible combinations of new bases
base_combinations = list(itertools.product('AGCT', repeat=i))
# for each combination `idx` in idxs, replace str[idx]
for positions in itertools.combinations(range(len(query_list)), i):
for bases in base_combinations:
# Generate Permutations and add to output
return output
答案 0 :(得分:34)
如果由"非确定性"你的意思是字典键出现的顺序(当你在字典上迭代时)从运行变为运行,字典键是字符串,请说明。然后我可以帮忙。但到目前为止,你还没有说过任何一个; - )
假设存在问题,这里有一个小程序:
d = dict((L, i) for i, L in enumerate('abcd'))
print(d)
并且4的输出在Python 3.3.2下运行:
{'d': 3, 'a': 0, 'c': 2, 'b': 1}
{'d': 3, 'b': 1, 'c': 2, 'a': 0}
{'d': 3, 'a': 0, 'b': 1, 'c': 2}
{'a': 0, 'b': 1, 'c': 2, 'd': 3}
python -h
输出的这一部分暗示了原因:
Other environment variables:
...
PYTHONHASHSEED: if this variable is set to 'random', a random value is used
to seed the hashes of str, bytes and datetime objects. It can also be
set to an integer in the range [0,4294967295] to get hash values with a
predictable seed.
这是一个半生不熟的"安全修复",旨在帮助防止基于构造旨在激发二次时行为的字典输入的DOS攻击。 "随机"是Python3中的默认值。
您可以通过将envar PYTHONHASHSEED设置为整数来关闭它(您的选择 - 如果您不在乎,请选择0)。然后使用字符串键迭代dict将在运行中以相同的顺序生成它们。
正如@AlcariTheMad在评论中所说,你可以通过python -R ...
在Python 2下启用 Python3默认行为。