文件比较优化

时间:2018-06-21 04:17:59

标签: python python-2.7

我必须对庞大的记录集(10-20百万)进行文件比较。

需求说明

对于文件比较,将有两个文件进行比较 并找到不同的记录。

  1. 文件类型为:List.txt.csv.xlsx.mdb
  2. .accdb可以是第一点中提到的任何类型。
  3. File 1可以是第一点中提到的任何类型。
  4. File 2File 1的分隔符是未知的,它可以是File 2中的任何分隔符。
  5. 每个文件中的每个文件都超过~^;|
  6. 70 columns在记录方面早于File 1File 2可能有1000万,File 1可能有1020万记录。
  7. 需要创建File 2,其中包含从File 3File 1的不同记录(例如,从第6点起的20万条记录)和列标题。

我的尝试:我使用File 2从两个文件(File1和File2)收集数据并进行了比较 使用SETfor条件。

if

问题

  1. 该代码对于我测试过的小记录来说效果很好 ,但对于大记录来说并不是最佳选择。
  2. 系统正在挂起。
  3. 消耗更多的内存,如以下屏幕截图所示:

enter image description here

0 个答案:

没有答案