Pandas read_table返回“字符”

时间:2017-08-27 02:55:02

标签: python file pandas text encoding

在阅读带有read_table()的文本文件后,我看到’之类的内容。输入文件内容在Windows记事本中显示为普通的ASCII字符。

dataRaw = pd.read_table('data.txt', header=None)

我是否需要包含一些字符集参数来防止这种情况?

1 个答案:

答案 0 :(得分:1)

我明白了。它采取了两个步骤:(1)使用正确的编码; (2)将应该是撇号的东西转换成撇号。

for line in open(dataPath, encoding='utf-8'):
   outstr = re.sub(r'[´]', '’', line)  # replace non-ASCII tick with apostrophe
   outstr = re.sub('[\']', '’', outstr)  # replace single quote with apostrophe

感谢您的提示。