我正在构建新闻聚合器应用程序。我打算列出一个RSS提要列表,我正试图解析rss提要并在Solr中保存新闻文章。 但是Nutch没有从RSS提要中获取文章的链接。它仅将RSS文件索引为Solr索引中的单个文档。它不会抓取rss feed文件中的任何链接。以下是如何将nutch-site.xml配置为使用插件:
<property>
<name>plugin.includes</name>
<value>protocol-http|feed|urlfilter-regex|suffix-urlfilter|parse-html|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
</property>
parse-plugins.xml也有以下配置:
<mimeType name="application/rss+xml">
<plugin id="feed" />
<plugin id="parse-tika" />
</mimeType>
<mimeType name="text/xml">
<plugin id="feed" />
<plugin id="parse-tika" />
</mimeType>
我使用以下命令来运行nutch: bin / crawl urls crawldir http://localhost:8082/solr 5