Question

var http = require('http');
var urlOpts = {host: 'www.nodejs.org', path: '/', port: '80'};
http.get(urlOpts, function (response) {
response.on('data', function (chunk) {
var str=chunk.toString();
var re = new RegExp("(<\s*title[^>]*>(.+?)<\s*/\s*title)\>", "g")
console.log(str.match(re));
});

});

输出

user @ dev~ $ node app.js ['node.js'] null null

我只需要获得标题。

Answer 1

我建议使用RegEx.exec代替String.match。您还可以使用文字语法定义正则表达式，并且只能使用一次：

var http = require('http');
var urlOpts = {host: 'www.nodejs.org', path: '/', port: '80'};
var re = /(<\s*title[^>]*>(.+?)<\s*\/\s*title)>/gi;
http.get(urlOpts, function (response) {
    response.on('data', function (chunk) {
        var str=chunk.toString();
        var match = re.exec(str);
        if (match && match[2]) {
          console.log(match[2]);
        }
    });    
});

代码还假设title将完全在一个块中，而不是在两个块之间分割。如果title在块之间分割，最好保留块的聚合。您可能还想在找到title后停止查找。

Answer 2

试试这个：

var re = new RegExp("<title>(.*?)</title>", "i");
console.log(str.match(re)[1]);

从抓取的网页获取页面标题

2 个答案: