我有1000个正则表达式模式,必须在9000个字符串中进行搜索。使用熊猫列表的正常蛮力方法需要25分钟才能完成同一任务。我使用了dask的延迟功能来并行化整个功能。完成任务花了9分钟。我需要提高速度。如何利用dask数组或dask dataframe来完成任务? 还是有更快的方法呢?
def match(string):
for regex in regex_list:
if re.search(regex, string):
pass
[match(x) for x in string_list]