从抓取的网页获取页面标题

时间:2012-10-26 13:28:06

标签: node.js

var http = require('http');
var urlOpts = {host: 'www.nodejs.org', path: '/', port: '80'};
http.get(urlOpts, function (response) {
response.on('data', function (chunk) {
var str=chunk.toString();
var re = new RegExp("(<\s*title[^>]*>(.+?)<\s*/\s*title)\>", "g")
console.log(str.match(re));
});

});

输出

  

user @ dev~ $ node app.js ['node.js'] null null

我只需要获得标题。

2 个答案:

答案 0 :(得分:7)

我建议使用RegEx.exec代替String.match。您还可以使用文字语法定义正则表达式,并且只能使用一次:

var http = require('http');
var urlOpts = {host: 'www.nodejs.org', path: '/', port: '80'};
var re = /(<\s*title[^>]*>(.+?)<\s*\/\s*title)>/gi;
http.get(urlOpts, function (response) {
    response.on('data', function (chunk) {
        var str=chunk.toString();
        var match = re.exec(str);
        if (match && match[2]) {
          console.log(match[2]);
        }
    });    
});

代码还假设title将完全在一个块中,而不是在两个块之间分割。如果title在块之间分割,最好保留块的聚合。您可能还想在找到title后停止查找。

答案 1 :(得分:2)

试试这个:

var re = new RegExp("<title>(.*?)</title>", "i");
console.log(str.match(re)[1]);