如何将Nutch 2.3中的图像作为HBase作为后端进行爬行?

时间:2015-05-27 16:22:55

标签: nutch

我想抓取某些网站的图片。到目前为止,我尝试过修改 正则表达式-urlfilter.txt。

我改变了:

/apps/cq/ui/rte/core/commands/DefaultFormatting.js

要:

 -\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|CSS|sit|SIT|eps|EPS|wmf|WMF|zip|ZIP|ppt|PP
 T|mpg|MPG|xls|XLS|gz|GZ|rpm|RPM|tgz|TGZ|mov|MOV|exe|EXE|jpeg|JPEG|bmp|BMP|js|JS)$

但它没有用。我很惊讶我没有找到任何关于使用Nutch 2.3 抓取图片的文档。对任何现有文档的推荐真的会有很大的帮助。

1 个答案:

答案 0 :(得分:4)

要使用Nutch获取和存储图像,您必须执行以下步骤:

1-添加正则表达式以不过滤图像格式,例如jpg,jpeg,tif,gif,png等...(你已经做过)

2-实现解析插件以解析图像。有关Nutch扩展点和编写所需插件的更多信息,请访问以下链接:

http://wiki.apache.org/nutch/AboutPlugins

http://wiki.apache.org/nutch/WritingPluginExample

<3>告诉Nutch有关已实现的插件并将其用于图像文件格式:

为此,您必须遵循两个不同的步骤,首先,修改conf / parse-plugins.xml并将实现的插件映射到图像文件格式:

<mimeType name="image/jpeg">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/gif">
        <plugin id="parse-image" />
</mimeType>
<mimeType name="image/png">
        <plugin id="parse-image" />
</mimeType>

第二,将实现的插件添加到nutch-site.xml以在Nutch运行时运行。您必须将实现的插件添加到<plugin.includes>属性。