phantomjs总是返回在特定网站上找不到的页面

时间:2016-11-19 20:40:16

标签: javascript phantomjs data-scrubbing

我试图从这个网站获得体育比赛结果

http://www.oddsportal.com

但是我尝试的这个网站的任何地址最终都找不到页面

在我自己的浏览器中打开

这是一个示例代码

var webPage = require('webpage');
var page = webPage.create();

page.onConsoleMessage = function(msg) {
  console.log(msg);
}

page.open('http://oddsportal.com', function(status) {

  page.evaluate(function() {
    console.log(document.getElementsByTagName('body')[0].innerHTML);
  });
  phantom.exit();

});

我不知道他们是如何阻止幻影js的,我不知道从哪里开始......

幻影js标题中是否有任何可以提醒他们的内容?

我将不胜感激任何有关如何解决此问题的建议或建议

这是网站输出

                                    <a href="http://www.oddsportal.com">
                                        <img src="logo.jpg" />
 </p>

                                    <div id="main" class="home">
                                        <div id="breadcrumb">
                                            <strong>The page you requested is not available.</strong>
                                        </div>
                                    <hr class="hidden">
                                        <div id="col-content">
                                            <h1>Page not found</h1>
                                            <p>This page not exist on OddsPortal.com!</p>
                        </div>
                                        <div class="break"></div>
                                        <hr class="hidden">
                                    </div>
                                    <div id="footer">
                                        <p class="l">Copyright © 2008-12 OddsPortal.com (v)</p>
                                        <div class="break"></div>
                        </div>

1 个答案:

答案 0 :(得分:2)

尝试使用page.settings.userAgent更改用户代理:

var webPage = require('webpage');
var page = webPage.create();

page.settings.userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.120 Safari/537.36';

//...

来源:PhantomJS Docs