如何用熊猫从2个CSV文件中删除所有重复的行?

时间:2019-06-10 09:52:10

标签: python pandas csv

我必须CSV文件。数据结构相等,看起来像ip,cve。 我需要删除所有存在于两个文件中的行,并仅保留唯一的行。 (左防加入) 我认为,这可以通过左联接来完成,但是不起作用。有解决这个问题的简便方法吗?

PYTHON_PATH

此代码引发此类回溯:

    import pandas as pd

    patrol = pd.read_csv('parse_results_MaxPatrol.csv')
    nessus = pd.read_csv('parse_result_nessus_new.csv')
    nessus_filtered = nessus.merge(patrol, how='left', left_on=[0], right_on=[0])

1 个答案:

答案 0 :(得分:1)

您可以从下面给出的示例代码中学习它

public function getFbLoginUrl()
{
    $fb = new Facebook(array(
        'app_id' => '434864033760844',
        'app_secret' => '<app secret>',
        'default_graph_version' => 'v3.2',
    ));

    $helper = $fb->getRedirectLoginHelper();
    $helper->getAccessToken('https://vinoservis.mobydyk.cz/sign/facebook');

    $permissions = []; // Optional permissions
    $loginURL = $helper->getLoginUrl('https://vinoservis.mobydyk.cz/sign/facebook', $permissions);

    return $loginURL;
}

它读取两个示例.csv文件(a.csv和b.csv),它们都具有相同的结构(id,名称列),几乎没有重复值。我们只是读取了这些.csv文件,然后删除了重复的文件并保留了第一行。

import pandas as pd
data_a = pd.read_csv('./a.csv')
data_b = pd.read_csv('./b.csv')
print('Data A')
print(data_a)
print('\nData B')
print(data_b)

data_c = pd.concat([data_a, data_b]).drop_duplicates(keep='first')
print('\nData C - Final dataset')
print(data_c)

希望,这可以帮助您解决问题。