我们是否也可以使用html获取HTTP状态代码429

时间:2018-07-18 05:22:09

标签: http nutch selenium-grid http-status-code-429

我正在将Apache Nutch 1.14与协议硒一起使用。 nutch-site.xml中为此的设置是

<property>
  <name>plugin.includes</name>
  <value>protocol-selenium|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
  <!--<value>protocol-http|protocol-httpclient|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>-->
  <description>Regular expression naming plugin directory names to ...  
  </description>
</property>

我正在尝试抓取网站。我正在使用Selenium Hub和Node。

我正在获取Http状态码429。
但我也能在浏览器中看到html页面。
但是Nutch不会为raw_html

创建目录

我收到此错误

  

失败:Http code = 429,url = https://www.expedia.com/

hadoop log文件中也没有错误

0 个答案:

没有答案