我正在将Apache Nutch 1.14与协议硒一起使用。 nutch-site.xml
中为此的设置是
<property>
<name>plugin.includes</name>
<value>protocol-selenium|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<!--<value>protocol-http|protocol-httpclient|urlfilter-(regex|validator)|parse-(html|tika)|index-(basic|anchor)|indexer-solr|scoring-opic|urlnormalizer-(pass|regex|basic)</value>-->
<description>Regular expression naming plugin directory names to ...
</description>
</property>
我正在尝试抓取网站。我正在使用Selenium Hub和Node。
我正在获取Http状态码429。
但我也能在浏览器中看到html页面。
但是Nutch不会为raw_html
我收到此错误
失败:Http code = 429,url = https://www.expedia.com/
hadoop log
文件中也没有错误