我正在尝试找到蛋白质序列的模糊匹配,并致力于处理500,000个大型数据集。我将不得不针对整个数据集(500,000)中的这500,000中的每一个进行模糊匹配。每个项目需要1.5秒,这需要几天的时间。
import regex
record = 'MAKKIVSDLDLLFSHLGKVKEESDKAKLTLRPVAEDLSKKLDKEVVFIIGGGMAYTFLKADKIDFAKDLLEKHGAKITKLFADELEGAHTVVWNGPMGVFEFGNFAQGTIGVCKAIANLKDAITIIGGGDSAAAAISLGFGK'
record_pattern = '('+record+')'+"{1<=e<=3}"
r = regex.compile(record_pattern)
newlist = list(filter(r.match, dict_keys_list)) #dict_keys_list is the 500,000 dataset
len_list = len(newlist)