应用错误收集

在Dask中进行自定义搜索

时间：2018-07-03 09:47:43

标签： python dask dask-distributed dask-delayed

我有1000个正则表达式模式，必须在9000个字符串中进行搜索。使用熊猫列表的正常蛮力方法需要25分钟才能完成同一任务。我使用了dask的延迟功能来并行化整个功能。完成任务花了9分钟。我需要提高速度。如何利用dask数组或dask dataframe来完成任务？还是有更快的方法呢？

def match(string):
    for regex in regex_list:
        if re.search(regex, string):
           pass
[match(x) for x in string_list]

0 个答案:

没有答案