我正在尝试对从网站手动获取的文本进行一些文本分析(将其复制并粘贴到Windows上的记事本或Mac上的Text Edit中)。我在Mac和Windows之间工作,并且注意到在Mac上复制/粘贴(使用utf-8编码保存为.txt文件)时,在Windows上运行python代码时遇到解码问题。当前的是:
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x96 in position 6719: invalid start byte
我完全天真地喜欢文本编码(因此可以复制/粘贴),但是我假设存在与MacOS兼容的字符,但与Windows不兼容(如果我弄错的话,是正确的)。我假设如果我将每个文件另存为.txt文件,那么它将在两个OS上都兼容。由于缺乏足够的知识,我什至无法使用Google搜索解决方案,因为我对文本编码的工作方式还不甚了解,甚至无法开始诊断问题。
从本质上讲,我正在寻找一种解决方案,该解决方案允许我获取网页的内容,另存为txt文件,并使用python打开,有时在Mac上,有时在Windows上。
抱歉,代码不足。正如我所说的,我的查询更多是普遍缺乏知识,我希望有人可以提供一些专业知识。