我试图用Node.js废弃一个网站,但我被阻止从网站上。我怎么解决这个问题?

时间:2017-01-15 13:09:00

标签: javascript node.js heroku web-scraping node-horseman

http://pslsource.com/buy_tennessee_titans_psl/

这是我想要废弃的网站。它有一些价格表,我不能通过我的Node应用程序访问它(在Heroku上)。我怎样才能再次重新访问它?任何代理或其他建议?

以下是代码:

var Horseman = require("node-horseman");

var h = new Horseman({timeout: 50000});

h.open("http://pslsource.com/buy_tennessee_titans_psl/")
.waitForSelector("body")
.text("body")
.then(function(data) {
    console.log(data);
});

注意:所有积分将支付给原始网站,我不会将数据声称为我自己的。

1 个答案:

答案 0 :(得分:1)

您被禁止访问该网站的事实清楚地表明,抓取该网站违反了所有者的意图。您可以通过使用代理并将请求发送到其API来“解决”这个问题。

但是,如果抓取网站实际上是合法的操作,那么请向他们发送电子邮件并解释他们为什么要抓取他们的网站,说服他们您的意图不违背他们的利益。他们可能会给你一个出口。如果没有,那么不要尝试从那里提取数据。