应用错误收集

我正在尝试找到蛋白质序列的模糊匹配，并致力于处理500,000个大型数据集。我将不得不针对整个数据集（500,000）中的这500,000中的每一个进行模糊匹配。每个项目需要1.5秒，这需要几天的时间。

import regex
record = 'MAKKIVSDLDLLFSHLGKVKEESDKAKLTLRPVAEDLSKKLDKEVVFIIGGGMAYTFLKADKIDFAKDLLEKHGAKITKLFADELEGAHTVVWNGPMGVFEFGNFAQGTIGVCKAIANLKDAITIIGGGDSAAAAISLGFGK'
record_pattern = '('+record+')'+"{1<=e<=3}"
r = regex.compile(record_pattern)
newlist = list(filter(r.match, dict_keys_list)) #dict_keys_list is the 500,000 dataset
len_list = len(newlist)

使用正则表达式模块针对大型数据集加快模糊字符串匹配

0 个答案: