在阅读带有read_table()的文本文件后,我看到’
之类的内容。输入文件内容在Windows记事本中显示为普通的ASCII字符。
dataRaw = pd.read_table('data.txt', header=None)
我是否需要包含一些字符集参数来防止这种情况?
答案 0 :(得分:1)
我明白了。它采取了两个步骤:(1)使用正确的编码; (2)将应该是撇号的东西转换成撇号。
for line in open(dataPath, encoding='utf-8'):
outstr = re.sub(r'[´]', '’', line) # replace non-ASCII tick with apostrophe
outstr = re.sub('[\']', '’', outstr) # replace single quote with apostrophe
感谢您的提示。