我已经开始学习Python用于数据科学。我几乎每天都在使用R.我在第一步堆叠。我尝试使用Pandas read_csv文件方法导入csv文件。我在导入时编码文件时遇到问题。
如果我使用R中的read.csv,一切正常:
df <- read.csv2("some_path/myfile.txt", stringsAsFactors = FALSE, encoding = 'UTF-8')
但如果我在python中使用类似的代码:
import pandas as pd
df = pd.read_csv("some_path/myfile.txt", sep = ';', encoding= 'utf8')
它会返回错误:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc6 in position 13: invalid continuation byte
我怎样才能在R中导入带有“utf-8”编码的文件,而不能用Python导入?
如果我使用不同的编码(latin1或iso-8859-1),它会成功导入文件,但不会以正确的方式编码字符。
答案 0 :(得分:0)
即使我不明白为什么UTF-8在R中工作但在Python中不工作,我发现cp1250编码工作正常。