Pandas read_csv()包含HTML特殊字符

时间:2018-02-15 16:26:37

标签: python html pandas csv

我正在使用逗号分隔的Python / Pandas清理CSV文件。

部分单元格中有&作为文本的一部分。当我运行read_csv()时,它会看到分号作为当前单元格的结尾并抵消了行的其余部分。

我尝试了encoding='utf8'以及其他各种选项......

编辑** 我的代码:

file = pd.read_csv('my-data-1.csv', encoding = 'utf8',index_col=False, low_memory=False)

file.drop(file.tail(1).index,inplace=True) #removing copyright line at the end


file_drop_dupes = file.drop_duplicates(['Project Id']) #drop the duplicates based on column Project Id

#drop all columns except these few
keep_col = ['Project Id','Project Name', 'Type']
new_file = file_drop_dupes[keep_col]
#write the result to a new csv file
new_file.to_csv('all-good-1.csv', index=False)

HTML字段的示例:

Service Maintenance & Supply

2 个答案:

答案 0 :(得分:0)

在python 3.4+中,它是一个简单的html.unescape()。在此之前,html.parser的HTMLParser.unescape()。请参阅this answer

答案 1 :(得分:0)

如果您使用python 3+ html.unescape()是解决方案