使用请求时响应中的空体

时间:2013-12-08 21:49:57

标签: node.js request web-scraping cheerio

我有以下代码:

var request = require('request');
var cheerio = require('cheerio');
var URL = require('url')
var fs = require('fs')
fs.readFile("urls.txt", 'utf8', function(err, data) {
    if (err) throw err;
    var urls = data.split('\n');
    urls = urls.filter(function(n){return n});
    for(var i in urls) {
        request(urls[i], function(err, resp, body) {
            if (err)
                throw err;
            $ = cheerio.load(body,{lowerCaseTags: true, xmlMode: true});
            $('item').each(function(){
                console.log("----------");
                console.log($(this).find('title').text());
                console.log($(this).find('link').text());
                console.log($(this).find('pubDate').text());
            });
        }).end();
    }
});

并且从urls.txt文件中我只有以下网址:

http://www.visir.is/section/?Template=rss&mime=xml

当我在该网址上使用wget时,我得到一个看起来像rss feed的响应但是当我在上面的代码中执行它时,正文是空的。有人可以向我解释为什么以及如何解决这个问题?

1 个答案:

答案 0 :(得分:2)

更新:只需从原始脚本中移除.end()即可。 end()在回调时终止脚本。 IMO,在2016年,我绝对会选择Request over Needle。


Request是一只奇怪的鸟,为什么它在你的情况下不起作用,它根本没有提供任何信息。

请尝试使用Needle

var needle = require('needle');
var cheerio = require('cheerio');
var URL = require('url')
var fs = require('fs')
fs.readFile("urls.txt", 'utf8', function(err, data) {
    if (err) throw err;
    var urls = data.split('\n');
    urls = urls.filter(function(n){return n});
    for(var i in urls) {
        needle.get(urls[i], function(err, resp, body) {
            if (err)
                throw err;
            $ = cheerio.load(body,{lowerCaseTags: true, xmlMode: true});
            $('item').each(function(){
                console.log("----------");
                console.log($(this).find('title').text());
                console.log($(this).find('link').text());
                console.log($(this).find('pubDate').text());
            });
        });
    }
});