使用正则表达式模块针对大型数据集加快模糊字符串匹配

时间:2019-02-01 06:27:14

标签: regex python-3.x fuzzy-search

我正在尝试找到蛋白质序列的模糊匹配,并致力于处理500,000个大型数据集。我将不得不针对整个数据集(500,000)中的这500,000中的每一个进行模糊匹配。每个项目需要1.5秒,这需要几天的时间。

import regex
record = 'MAKKIVSDLDLLFSHLGKVKEESDKAKLTLRPVAEDLSKKLDKEVVFIIGGGMAYTFLKADKIDFAKDLLEKHGAKITKLFADELEGAHTVVWNGPMGVFEFGNFAQGTIGVCKAIANLKDAITIIGGGDSAAAAISLGFGK'
record_pattern = '('+record+')'+"{1<=e<=3}"
r = regex.compile(record_pattern)
newlist = list(filter(r.match, dict_keys_list)) #dict_keys_list is the 500,000 dataset
len_list = len(newlist)

0 个答案:

没有答案