如何比较两个CSV并产生重复数据删除的输出

时间:2019-11-27 21:35:55

标签: python pandas csv

我有2个CSV文件。

  • 第一个CSV文件仅具有一个名为“ video_url”的字段(或列)名称,其中包含唯一URL的列表。
  • 第二个CSV文件包含10到15个字段名称。但是,其中一个字段名称具有第一个CSV文件中提到的“ video_url”字段名称。

这是我的困境/问题陈述:

我正在尝试编写仅可以使用“ video_url”列/字段比较这两个csv文件的python代码,并且如果存在完全匹配的内容,则该记录将不包含在新的CSV文件中。新的CSV文件将仅包含不完全匹配的记录。

(并且请耐心等待,因为我是Python和一般编程的新手。)

1 个答案:

答案 0 :(得分:0)

我要做的是在dataframe2上逐行进行迭代,并检查它是否在dataframe1中,如果没有,则将其添加到新的数据框中。例如:

CMAKE_CONFIGURE_DEPENDS

完成此操作后,您可以打印new_dataframe,它应该是一个列表,其中dataframe2的video_url不在dataframe1中。