我在Node.JS中使用this page获取this request library,并使用cheerio解析正文。
在已解析的响应正文上调用$.html()
会显示该页面的title属性为:
<title>Le Relais de l'Entrec?te</title>
......应该是:
<title>Le Relais de l'Entrecôte</title>
我已尝试将请求库的选项设置为包含encoding: 'utf8'
,但这似乎没有改变任何内容。
如何保留这些字符?
答案 0 :(得分:27)
您可以使用iconv(或更好iconv-lite)进行转换,但要检测编码,您应该查看charset和jschardet模块。以下是它们的实例:
var charset = require('charset'),
jschardet = require('jschardet'),
Iconv = require('iconv').Iconv;
request.get({url: 'http://www.example.com', encoding: 'binary'}, function(err, res, body) {
var enc = charset(res.headers, body) || jschardet.detect(body).encoding.toLowerCase();
if(enc !== 'utf8') {
var iconv = new Iconv(enc, 'UTF-8//TRANSLIT//IGNORE');
body = iconv.convert(new Buffer(body, 'binary')).toString('utf8');
}
console.log(body);
});
答案 1 :(得分:20)
该页面似乎用iso-8859-1编码。您需要告诉request
通过传递encoding: null
并使用node-iconv之类的内容将其转换回未编码的缓冲区。
如果您正在编写通用抓取工具,则必须弄清楚如何检测您遇到的每个网页的编码以正确解码,否则以下内容适用于您的情况:
var request = require('request');
var iconv = require('iconv');
request.get({
url: 'http://www.relaisentrecote.fr',
encoding: null,
}, function(err, res, body) {
var ic = new iconv.Iconv('iso-8859-1', 'utf-8');
var buf = ic.convert(body);
var utf8String = buf.toString('utf-8');
// .. do something with utf8String ..
});