我是python&的新手试图比较两个大型CSV文件(3亿行和50列)。如果它是一个更好的选择,想知道如何在熊猫中做到这一点。输入&输出预期在下面给出
文件1:
key,field1,field2,field3
001,belgium,1000,123.56
002,usa,200,345.65
003,canada,3000,675.00
文件2:
key,field1,field2,field3
001,belgium,500,0
002,usa,200,345.65
004,Brazil,2500,458.00
输出(带比较指标)
(s-相同的值,C值改变,O值从非零变为零,记录在新文件中删除,N记录在新文件中新添加)
预期输出:
key,field1,field2,field3
001,S,C,O
002,S,S,S
003,D,D,D
004,N,N,N