使用pandas

时间:2017-02-11 22:24:28

标签: python csv pandas python-import

我已经开始学习Python用于数据科学。我几乎每天都在使用R.我在第一步堆叠。我尝试使用Pandas read_csv文件方法导入csv文件。我在导入时编码文件时遇到问题。

如果我使用R中的read.csv,一切正常:

df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')

但如果我在python中使用类似的代码:

import pandas as pd
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')

它会返回错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte

我怎样才能在R中导入带有“utf-8”编码的文件,而不能用Python导入?

如果我使用不同的编码(latin1或iso-8859-1),它会成功导入文件,但不会以正确的方式编码字符。

1 个答案:

答案 0 :(得分:0)

即使我不明白为什么UTF-8在R中工作但在Python中不工作,我发现cp1250编码工作正常。