使用Apache Nutch解析PDF问题 - 提取器插件

时间:2014-11-24 16:57:56

标签: pdf solr nutch extractor

我正在尝试从网站索引网页和pdf文档。我正在使用Nutch 1.9。

我从https://github.com/BayanGroup/nutch-custom-search下载了nutch-custom-search插件。该插件非常棒,确实让我将所选的div与solr fieds相匹配。

我遇到的问题是,我的网站还包含大量的pdf文件。我可以看到它们被取出但从未被解析过。查询solr时没有pdf。只是网页。我正在尝试使用tika来解析.PDF(我希望我有正确的想法)

如果在cygwin上,我运行parsechecker见下文,它似乎解析好了:

    $ bin/nutch parsechecker -dumptext -forceAs application/pdf http://www.immunisationscotland.org.uk/uploads/documents/18304-Tuberculosis.pdf 

我不太确定下一步该做什么(见下面的配置)

extractor.xml

    <config xmlns="http://bayan.ir" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://bayan.ir http://raw.github.com/BayanGroup/nutch-custom-search/master/zal.extractor/src/main/resources/extractors.xsd" omitNonMatching="true">
<fields>
    <field name="pageTitleChris" />
    <field name="contentChris" />     
</fields>
<documents>
    <document url="^.*\.(?!pdf$)[^.]+$" engine="css">
        <extract-to field="pageTitleChris">
            <text>
                <expr value="head > title" />
            </text> 

        </extract-to>
        <extract-to field="contentChris">
            <text>
                <expr value="#primary-content" />
            </text> 

        </extract-to>

    </document>
</documents>

在我的parse-plugins.xml中添加了

    <mimeType name="application/pdf">
       <plugin id="parse-tika" />
    </mimeType>

的nutch-site.xml中

    <name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika|text)|extractor|index-(basic|anchor)|query-(basic|site|url)|indexer-solr|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>

<property>
  <name>http.content.limit</name>
  <value>65536666</value>
  <description></description>
</property>


<property>
  <name>extractor.file</name>
  <value>extractor.xml</value>
</property>

非常感谢帮助,

由于

克里斯

1 个答案:

答案 0 :(得分:0)

我认为问题与omitNonMatching =&#34; true&#34;在您的extractor.xml文件中。

omitNonMatching =&#34;真&#34;意味着“不要将那些在任何提取物中匹配的页面索引到extractor.xml&#34;的规则中。”默认值为false。