我必须对庞大的记录集(10-20百万)进行文件比较。
需求说明:
对于文件比较,将有两个文件进行比较 并找到不同的记录。
List
,.txt
,.csv
,.xlsx
或.mdb
.accdb
可以是第一点中提到的任何类型。File 1
可以是第一点中提到的任何类型。File 2
或File 1
的分隔符是未知的,它可以是File 2
中的任何分隔符。~^;|
。70 columns
在记录方面早于File 1
。 File 2
可能有1000万,File 1
可能有1020万记录。File 2
,其中包含从File 3
到File 1
的不同记录(例如,从第6点起的20万条记录)和列标题。 我的尝试:我使用File 2
从两个文件(File1和File2)收集数据并进行了比较
使用SET
和for
条件。
if
问题: