任务:每天30K的订单上有大量的文本文件。如何使用正则表达式找出程序提取实体的速度(它们的数量大约是20)?
该程序是在Python上计划的。但是操作系统和硬件将基于这样的程序的最佳性能来确定。在这个阶段,我们需要有关提取数据的最小可能配置的信息"在运行中"和此配置的速度的近似数字 -
答案 0 :(得分:1)
如果我是你,我会在python中写你的正则表达式,得到30k测试文件(同样的文件被复制30k次?),看看处理需要多长时间。然后在python中使用cProfile来分析1个文件的代码,看看你可以加快它的速度。