我是第一次使用solr,并完成了设置。现在,我已经使用命令行创建了一个核心,并且想要执行第三方网站的网络抓取。 如果我尝试使用单个链接进行尝试,则可以进行爬网并将其索引到核心。使用>完成 java -Ddata = web -Durl = https://solr:8985/solr/solrhelp/update -jar post.jar http://www.example.com
现在,我打算做的是提供一个URL,并使用递归选项(-Drecursive),并使其爬网整个站点。 请注意,我所指向的网站大约有125页,并且正在使用以下命令> java -Ddata = web -Durl = https://solr:8985/solr/solrhelp/update -Drecursive = yes -jar post.jar http://www.example.com和 java -Ddata = web -Durl = https://solr:8985/solr/solrhelp/update -Drecursive = 2 -jar post.jar http://www.example.com
,我收到以下错误消息。 错误:
SimplePostTool version 5.0.0
Posting web pages to Solr url https://solr:8985/solr/solrhelp/update/extract
Entering auto mode. Indexing pages with content-types corresponding to file endings xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log
Entering recursive mode, depth=1, delay=10s
Entering crawl at level 0 (1 links total, 1 new)
POSTed web resource http://www.example.com (depth: 0) [Fatal Error] :1:1: Content is not allowed in prolog. Exception in thread "main" java.lang.RuntimeException: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is not allowed in prolog.
at org.apache.solr.util.SimplePostTool$PageFetcher.getLinksFromWebPage(SimplePostTool.java:1252)
at org.apache.solr.util.SimplePostTool.webCrawl(SimplePostTool.java:616)
at org.apache.solr.util.SimplePostTool.postWebPages(SimplePostTool.java:563)
at org.apache.solr.util.SimplePostTool.doWebMode(SimplePostTool.java:365)
at org.apache.solr.util.SimplePostTool.execute(SimplePostTool.java:187)
at org.apache.solr.util.SimplePostTool.main(SimplePostTool.java:172) Caused by: org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is not allowed in prolog.
at com.sun.org.apache.xerces.internal.parsers.DOMParser.parse(Unknown Source)
at com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderImpl.parse(Unknown Source)
at javax.xml.parsers.DocumentBuilder.parse(Unknown Source)
at org.apache.solr.util.SimplePostTool.makeDom(SimplePostTool.java:1061)
at org.apache.solr.util.SimplePostTool$PageFetcher.getLinksFromWebPage(SimplePostTool.java:1232)
... 5 more
如果有人能帮助我解决我一直试图解决的问题,我将非常感激。