我正在尝试引入包含一串带有破折号和/或破折号的文本的文件,请勿将它们与常规连字符(减号)混淆。问题是每次我读此CSV时,破折号都会变成替换字符(�)。如果我尝试对文件进行编码或解码,我只会收到关于utf-8无法识别破折号的错误消息。我是否只是尝试从python写入CSV文件?这似乎是一个非常愚蠢的问题,应该很容易解决。
我的代码是:
df = pd.read_csv('csv file with em dash or en dash')
print(df)
我的输出是:
col_name
� �
读入后我尝试替换破折号,但这不起作用。我也尝试过替换替换字符,但这也没有用。我的理想解决方案是破折号仅显示它们在CSV文件中的状态。我认为这与如何将文件读入python有关,但是每当我尝试编码器/解码器时,我都会收到不支持破折号的错误。