检查python panda数据结构中的重复项

时间:2016-02-13 05:05:32

标签: python python-2.7 pandas

我有一个csv文件。它看起来像这样;

name,id,
AAA,1111,
BBB,2222,
CCC,3333,
DDD,2222,

我想在id列中提取数据并放在数据结构中。为此,我使用了python panda。这是执行此操作的代码;

import pandas as pd
csv_file = 'C:/test.csv'
df = pd.read_csv(csv_file)
column_items = df['id']

我想检查id列中的数据项是否重复。数据项存储在column_items中。在这种情况下,有一个重复。

我正在使用python 2.7和panda库。

1 个答案:

答案 0 :(得分:3)

要确定整个列中是否有重复的ID,请执行

INSERT INTO table1 (col1, col2, col3)
     SELECT a.col1, a.col2, a.col3 
     from table2 as a
     LEFT OUTER JOIN table1 as b
     ON a.col1 = b.col1
     AND a.col2 = b.col2
     WHERE b.col1 IS NULL AND b.col2 IS NULL;