如何在python中读取带有中文字符的csv文件

时间:2018-02-23 08:36:45

标签: python

csv文件我有杂乱的代码,应该是中文字符。 我想把文件读成python,中文字符不像以前那样杂乱。我怎么做? 我尝试使用gb2312或gb18030等编码的pandas.read_csv,它们都报告错误,如UnicodeDecodeError:'gb2312'编解码器无法解码位置4的字节0xae:非法多字节序列

我的数据: The data

代码名称上市时间日期EPTTM行业上市 000001.SZÂπ≥ÂÆâÈì∂Ë°å3/ 4/1991 19871222 8 1/1/20070.030477768Ω»/Σ˛ŒÒ...Ó€/ 000002.SZ‰ΠáÁßëA29/ 1/1991 19840530 8 1/1/20070.025771537Σøμÿ≤˙...Ó€/ 000004.SZÂõΩÂÜúÁßëÊäÄ14/ 1/1991 19860505 8 1/1/2007 -0.05297144“Ω”©...˙ŒÔ...Ó€/ 000005.SZ‰ΠñÁ∫™ÊòüÊ∫ê10/ 12/1990 19870730 8 1/1/2007-0.024968897Σøμÿ≤˙...Ó€/ 000006.SZÊΣ±Êå؉ΠöA27/ 4/1992 19850525 8 1/1/20070.074647402Σøμÿ≤˙...Ó€/ 000007.SZÂÖ®Êñ∞•Ω,13/4/1992 19830311 NA 8 1/1/2007NAΣøμÿ≤˙...Ó€/ 000008.SZÁ•ûÂΣûÈ'òÈìÅ7/ 5/1992 19891011 8 1/1/2007-0.010574387◊€œœ...Ó€/ 000009.SZ‰Π≠õõΩÆÆùÂÆâ25/6/1991 19830706 8 1/1/20070.009576133Σøμÿ≤˙...Ó€/

1 个答案:

答案 0 :(得分:0)

data06_16 = pd.read_csv("yourfile.csv", encoding="GBK")

尝试添加等于GBK的编码,效果很好。

作为屏幕截图。

enter image description here