客户要求网络抓取工具分析他的网站并生成一个包含网站上某些信息的CSV文件,但我遇到了编码问题。
我检查了该页面,我看到Content-Type
标头设置为"text/html; charset=utf-8"
,Content-Type
的元标记具有相同的值。
我使用简单的字符串连接来生成结果,就像在CONTENT += line + '\r\n';
中一样,并且在准备就绪时,我提示文件下载:
var data = new Blob([CONTENT], { type: 'text/plain; charset=utf-8' });
saveAs(data, 'crawler.csv');
我希望编码是正确的,因为所有内容都使用UTF-8编码,但事实并非如此,我仍然会得到一些不正确的编码,就像在RADIOFREQUÃNCIA
中一样,它应该读取RADIOFREQUÊNCIA
。在大多数情况下,重音符号和变音符号由Ã
替换。
我尝试使用多种编码/解码方法,但没有效果。有人有一些建议吗?