用于解析千兆字节文件的并发编程到一个全局字典中

时间:2018-05-09 01:41:25

标签: python-2.7 concurrency python-multithreading large-data concurrentdictionary

我有一个2Gig的文本文件。在我的程序中,我使用mmap逐行读取,并形成一个有序字典。完成该计划需要近40分钟。 我正在考虑在这里减少时间的并发方式。 程序将按文件大小将文件分成50个半部分。并且,一次将数据块传递给每个线程。 并且,50个线程的所有解析块将更新一个全局字典。 块中可能存在重复数据,这是必要的。 我担心的是,是否会有任何数据丢失,或者此代码的后果是什么。 提供建议或替代解决方案。 提前致谢

0 个答案:

没有答案