如何使用nutch插件解析位于特定HTML标记中的内容?

时间:2013-07-31 14:02:39

标签: nutch

我正在使用Nutch抓取网站,我想解析Nutch抓取的html网页的特定部分。例如,

  <h><title> title to search </title></h>
   <div id="abc">
        content to search
   </div>
   <div class="efg">
        other content to search
   </div>

我想用id =“abc”和class =“efg”来解析div元素,依此类推。

我知道我必须为自定义解析创建一个插件,因为Nutch提供的htmlparser插件会删除所有html标签,css和javascript内容,只留下文本内容。我参考了这个博客http://sujitpal.blogspot.in/2009/07/nutch-custom-plugin-to-parse-and-add.html,但我发现这是用于使用html标签进行解析而我想要解析具有特定值的属性的html标签。我发现杰里科被提到对解析特定的html标签很有用,但我可以找到任何与杰里科相关的nutch插件的例子。

我需要一些关于如何根据具有特定值的属性来设计解析html页面的策略的指导。

1 个答案:

答案 0 :(得分:5)

您可以使用此插件根据css规则从您的网页中提取数据:

https://github.com/BayanGroup/nutch-custom-search

在您的示例中,您可以通过以下方式配置它:

<config>
    <fields>
        <field name="custom_content" />
    </fields>
    <documents>
        <document url=".+" engine="css">
            <extract-to field="custom_content">
                <text>
                    <expr value="#abc" />
                </text>
                <text>
                    <expr value=".efg" />
                </text>
            </extract-to>
        </document>
    </documents>
</config>