使用solr6.4.1抓取网站

时间:2017-03-13 17:31:47

标签: solr nutch

我正在尝试在Solr 6.4.1中抓取一个网站。我认为Nutch是与Solr一起装的OOTB。我使用以下命令来抓取网站

java -Ddata=web -Dc=corename -jar post.jar (URLName starting from https)

我收到以下错误:

SimplePostTool: WARNING: Solr returned an error #400 (Bad Request) for url:

1 个答案:

答案 0 :(得分:0)

尽管有文档,但我认为SimplePostTool不适用于URL。它将始终以文件夹而不是URL的形式读取它。

如果您需要爬网,我认为您需要使用Linux计算机。 bin / post脚本在Linux上可以正常工作。