我正在尝试将字符串转换为datetime对象。这些字符串存储在csv列中。文件很大我想多处理它。
我的代码如下所示:
def conv_datetime(file):
return ([pd.to_datetime(j[3]) for j in file])
if __name__ == "__main__":
n = 0
file = pd.read_csv("csv_file",header=None,chunksize=200,skiprows=n)
n += 200
pro = mp.Process(target=conv_datetime,args=(file,))
pro.deamon = False
pro.start()
pro.join()
我得到了:
AttributeError
Traceback (most recent call last)
<ipython-input-1-5d16d82af0d2> in <module>()
15 pro = mp.Process(target=conv_datetime,args=(file,))
16 pro.deamon = False
---> 17 pro.start()
18 pro.join()
19
C:\ProgramData\Anaconda33\lib\multiprocessing\process.py in start(self)
103 'daemonic processes are not allowed to have children'
104 _cleanup()
--> 105 self._popen = self._Popen(self)
106 self._sentinel = self._popen.sentinel
107 # Avoid a refcycle if the target function holds an indirect
C:\ProgramData\Anaconda33\lib\multiprocessing\context.py in _ Popen(process_obj)
221 @staticmethod
222 def _Popen(process_obj):
--> 223 return _default_context.get_context().Process._Popen(process_obj)
224
225 class DefaultContext(BaseContext):
C:\ProgramData\Anaconda33\lib\multiprocessing\context.py in _Popen(process_obj)
320 def _Popen(process_obj):
321 from .popen_spawn_win32 import Popen
--> 322 return Popen(process_obj)
323
324 class SpawnContext(BaseContext):
C:\ProgramData\Anaconda33\lib\multiprocessing\popen_spawn_win32.py in __init__(self, process_obj)
63 try:
64 reduction.dump(prep_data, to_child)
---> 65 reduction.dump(process_obj, to_child)
66 finally:
67 set_spawning_popen(None)
C:\ProgramData\Anaconda33\lib\multiprocessing\reduction.py in dump(obj, file, protocol)
58 def dump(obj, file, protocol=None):
59 '''Replacement for pickle.dump() using ForkingPickler.'''
---> 60 ForkingPickler(file, protocol).dump(obj)
61
62 #
AttributeError: Can't pickle local object '_make_date_converter.<locals>.converter'
在有人给我一个代码解决方案之前,如果可以深入了解守护进程如何工作,那将会非常有用。
答案 0 :(得分:2)
如果你查看multiprocessing/process.py
代码(你似乎没有使用Python 3.6,所以行号有点不同,但这部分代码没有变化),你可以看到非常清楚,关于守护进程的字符串是不相关的;它只是assert
的一部分,您的代码在没有任何问题的情况下成功通过,之后几行完全无关的原因失败了。
实际问题出在第105行,并在错误消息中解释:
AttributeError: Can't pickle local object '_make_date_converter.<locals>.converter'
您正在尝试将对象传递给无法进行腌制的子进程。这在multiprocessing
文档中稍作解释,例如在Programming Guidelines下,尽管这些文档假设您了解&#34; pickle&#34;意味着,您已经阅读了相关文档的前几部分。你真的应该阅读那些前面的部分,并在文档中查找pickle
,但基本的想法是:
multiprocessing
模块使用pickle
模块将参数传递给函数,从函数返回值,在队列中放置值等。pickle
模块只能处理数据类型。旨在被腌制。因此,某些类型无法通过multiprocessing
传递。
在这种情况下,应该有一个非常简单的解决方法:只需传递文件名,让子进程读取它。当然,对于更复杂的案例,它不会起作用,但如果它适合你的,请保持简单。
对于更复杂的情况,Pandas的通常解决方案是将标准pickler替换为第三方库,如dill
或cloudpickle
,它们了解更多有关Pandas的信息,并可将其强制转换为通过通过网络。 (或者,有时候,用multiprocess
等第三方库取代dask
本身。)这不是很难学,但你需要查看选项,选择一个,并阅读有关如何将其挂钩的内容,如果不需要,您可能不想这样做。
如果您仍然对守护进程仍然感兴趣,请参阅参考文档中的Processes。但简短的版本是,在这种情况下,守护进程是一个没有join
编辑的进程 - 换句话说,当主进程完成时你不会等待它完成,就像你正常的过程一样。