合并2个csv文件 - html编码

时间:2015-07-01 12:23:01

标签: python html pandas encoding

我需要将2个csv文件合并为一个名为“name”的列。列'name'具有混合类型。

数据是html编码的。文件'a'包含的行数多于文件'b'。

我想要的输出应该只包含文件'b'中的名称。

提交:id_public,名称,计数

文件b: ID,名称

数据如下所示:

姓名:ÅelomoBen-Meleá¸μ; A. C. P. M.; ÃlvarezdePaz,Mario 1860-1920 ;阿尔,彼得;等

我已经能够合并这些文件,但只丢失了包含特殊字符的所有行(例如,我的合并文件只包含Aahl,Peter)。我的代码如下所示:

import pandas as pd

a = pd.read_csv("a.csv", low_memory=False)
b = pd.read_csv("b.csv", low_memory=False)

merged = a.merge(b, on='name')

非常感谢你的帮助。

1 个答案:

答案 0 :(得分:1)

您的问题与编码无关,您只是使用了错误的合并类型。您想要执行right合并:

merged = a.merge(b, on='name', how='right')

请参阅docs