应用错误收集

Apache Nutch-无法抓取包含＃的网址

时间：2018-07-05 10:47:00

标签： url solr web-crawler nutch

我正在尝试使用如下所示的Apache Nutch抓取网页：

但是Nutch似乎忽略了以下部分：/＃/ details / interview，只是抓取了网址：

https://<WEBSITE_URL>/#/details/interview

如何让Nutch正确抓取网页？

谢谢！

0 个答案:

没有答案