Nutch不解析RSS提要文件

时间:2015-03-02 15:20:31

标签: java solr rss web-crawler nutch

我正在构建新闻聚合器应用程序。我打算列出一个RSS提要列表,我正试图解析rss提要并在Solr中保存新闻文章。 但是Nutch没有从RSS提要中获取文章的链接。它仅将RSS文件索引为Solr索引中的单个文档。它不会抓取rss feed文件中的任何链接。以下是如何将nutch-site.xml配置为使用插件:

  <property>
    <name>plugin.includes</name>
    <value>protocol-http|feed|urlfilter-regex|suffix-urlfilter|parse-html|index-(basic|anchor)|indexer-solr|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
    </property>

parse-plugins.xml也有以下配置:

<mimeType name="application/rss+xml">
        <plugin id="feed" />


         <plugin id="parse-tika" />

    </mimeType>
<mimeType name="text/xml">
        <plugin id="feed" />
        <plugin id="parse-tika" />

    </mimeType>

我使用以下命令来运行nutch: bin / crawl urls crawldir http://localhost:8082/solr 5

0 个答案:

没有答案