我很难理解如何利用/学习如何在Python代码中使用多处理。我现在正在处理csv文件,它们是Windows操作系统上的几个演出和数千万条记录,并开始遇到大规模的处理速度。我有以下代码:
import numpy as np
import pandas as pd
import datetime as dt
df = pd.read_csv(r'C:...\2017_import.csv')
df['FinalActualDate'] = pd.to_datetime(df['FinalActualDate'])
df['StartDate'] = pd.to_datetime(df['StartDate'])
df['DaysToInHome'] = (df['FinalActualDate'] - df['StartDate']).abs() / np.timedelta64(1, 'D')
df.to_csv(r'C:...\2017_output4.csv', index=False)
数据存档为3.6 gigs。数据如下:
Class,OwnerCode,Vendor,Campaign,Cycle,Channel,Product,Week,FinalActualDate,State,StartDate
3,ECM,VendorA,000206,06-17,A,ProductB,Initial,2017-06-14 02:01:00,NE,06-01-17 12:00:00
3,ECM,VendorB,000106,06-17,A,ProductA,Initial,2017-06-14 00:15:00,NY,06-01-17 12:00:00
3,ECM,AID,ED-17-0002-06,06-17,B,ProductB,Secondary,2017-06-13 20:30:00,MA,06-08-17 12:00:00
3,ECM,AID,ED-17-0002-06,06-17,C,ProductA,Third,2017-06-15 02:13:00,NE,06-15-17 12:00:00
此代码适用于小型数据集,但实际的大型数据集需要几个小时。我已尝试导入concurrent.futures和多处理的几次迭代但没有成功。我很失落,不值得我发布我尝试过的东西。我确实意识到其他因素会影响速度,但获取新硬件不是一种选择。任何指导将不胜感激。
答案 0 :(得分:1)
在你进入multiprocessing
之前,我会考虑处理一些低调的果实(无论你不想做什么):
考虑:
In [15]: df
Out[15]:
Class OwnerCode Vendor Campaign Cycle Channel Product \
0 3 ECM VendorA 000206 06-17 A ProductB
1 3 ECM VendorB 000106 06-17 A ProductA
2 3 ECM AID ED-17-0002-06 06-17 B ProductB
3 3 ECM AID ED-17-0002-06 06-17 C ProductA
Week FinalActualDate State StartDate
0 Initial 2017-06-14 02:01:00 NE 06-01-17 12:00:00
1 Initial 2017-06-14 00:15:00 NY 06-01-17 12:00:00
2 Secondary 2017-06-13 20:30:00 MA 06-08-17 12:00:00
3 Third 2017-06-15 02:13:00 NE 06-15-17 12:00:00
由于您的日期时间格式是常规格式,因此只需传递format
参数即可。做一个简单的测试:
In [16]: dates = df.StartDate.repeat(10000)
In [17]: len(dates)
Out[17]: 40000
In [18]: %timeit pd.to_datetime(df.StartDate)
1000 loops, best of 3: 866 µs per loop
In [19]: %timeit pd.to_datetime(df.StartDate, format="%m-%d-%y %H:%M:%S")
10000 loops, best of 3: 106 µs per loop
我的速度增加了8倍。除非您正在使用8个以上的内核,否则这比通过并行化实现的速度要快得多。