node.js从外部网站抓取html数据值

时间:2017-11-27 18:02:44

标签: javascript jquery html node.js

因为这是我的第一个问题,首先我要向stackoverflow社区问好:)

我最近开始学习node.js。我想从此处废弃货币值:https://www.dailyfx.com/forex-rates然后将它们保存在.txt文件中作为练习。

我找到了cheerio.js框架并试了一下。

该页面的HTML代码:

<tbody>
  <tr id="EURUSD" data-market-id="EURUSD" class="rates-now">
    <td>
      <span title="EURUSD">
        <a href="eur-usd">EURUSD</a>
      </span>
    </td>
    <td class="text-right rates-row-td">
      <span data-symbol="EURUSD" data-type="bid" data-value="1.19016" data-changescale="-1"></span>
    </td>
    <td class="text-right rates-row-td">
      <span data-symbol="EURUSD" data-type="ask" data-value="1.21016" data-changescale="-1"></span>
    </td>
    <td class="text-right rates-row-td">
      <span id="EURUSD-spread">0.60</span>
    </td>
    <td class="text-right rates-row-td">
      <span class="calendar-toggle-btn"></span>
    </td>
</tbody>

我的node.js代码:

var request = require('request');
var cheerio = require('cheerio');
var fs = require('fs');

request("https://www.dailyfx.com/forex-rates", function(error, response, body) {
  if(error) {
    console.log("Error: " + error);
  }
  console.log("Status code: " + response.statusCode);

  var $ = cheerio.load(body);

  $('tr.rates-row').each(function( index ) {
    var title = $(this).attr('data-market-id');
    console.log("Title: " + title);
    var value = $(this).find('td.rates-row-td > span').attr('data-value');
    console.log(" Value= " + value);
    fs.appendFileSync('stara.txt', value + '\n');
  });
});

输出就像:

Status code: 200
Title: EURUSD
 Value= undefined
Title: USDJPY
 Value= undefined
Title: AUDUSD
 Value= undefined
Title: GBPUSD
 Value= undefined
Title: USDCAD
 Value= undefined

等等。我不知道为什么属性数据值的值是未定义的。

1 个答案:

答案 0 :(得分:0)

使用javascript动态插入内容。 Cheerio只能读取HTML,所以它总是未定义的。

你需要使用像Puppeteer,jSDom,phantomjs等的东西。