在Dask中进行自定义搜索

时间:2018-07-03 09:47:43

标签: python dask dask-distributed dask-delayed

我有1000个正则表达式模式,必须在9000个字符串中进行搜索。使用熊猫列表的正常蛮力方法需要25分钟才能完成同一任务。我使用了dask的延迟功能来并行化整个功能。完成任务花了9分钟。我需要提高速度。如何利用dask数组或dask dataframe来完成任务? 还是有更快的方法呢?

def match(string):
    for regex in regex_list:
        if re.search(regex, string):
           pass
[match(x) for x in string_list]

0 个答案:

没有答案