无论如何,我可以在node.js中获取html主体

时间:2013-12-24 04:31:28

标签: javascript html json node.js

我尝试向Apache服务器发送请求并使用返回的正文。

按照nodejs的说明进行操作 http://nodejs.org/api/https.html#https_https_request_options_callback

和相关的SO内容 How to make external HTTP requests with Node.js

我的src是

callback = function(response) {
  body='';
  console.log('HEADERS: ' + JSON.stringify(response.headers));
  response.on('data', function (chunk) {
    body+= chunk;
  }); 

  response.on('end', function () {
    console.log(body);
  }); 
}

我的问题是这里的主体将包含所有HTML标头标记,例如<!DOCTYPE html> ...等,这些标记无法由JSON对象解析。因为HTML主体中的所有数据都是JSOn,所以我只想获得HTML主体。反正有没有实现这个目标?提前谢谢。

1 个答案:

答案 0 :(得分:3)

我这里没有提供完整的代码。

  1. 您可以使用htmlparser2等模块从HTML正文中提取数据(Online demo for the same)。

  2. 然后您可以使用JSON.parse将提取的字符串解析为JSON对象。