我正在尝试在Solr 6.4.1中抓取一个网站。我认为Nutch是与Solr一起装的OOTB。我使用以下命令来抓取网站
java -Ddata=web -Dc=corename -jar post.jar (URLName starting from https)
我收到以下错误:
SimplePostTool: WARNING: Solr returned an error #400 (Bad Request) for url:
答案 0 :(得分:0)
尽管有文档,但我认为SimplePostTool不适用于URL。它将始终以文件夹而不是URL的形式读取它。
如果您需要爬网,我认为您需要使用Linux计算机。 bin / post脚本在Linux上可以正常工作。