Heritrix3排除图像,视频和档案被抓取

时间:2015-05-07 07:35:41

标签: java xml heritrix

我正在使用Heritrix3,我们试图从使用MatchesListRegexDecideRule抓取的URI集中排除图像,视频和存档,我已将其设置在crawler-beans.cxml配置文件中,该文件在启动时创建创造了工作:

<bean class="org.archive.modules.deciderules.MatchesListRegexDecideRule">
<property name="decision" value="REJECT"/>
<!-- <property name="listLogicalOr" value="true" /> -->
<property name="regexList">
<list>
<!-- Exclude all images -->
<value>".*\.(jpeg|jpg|png|tiff|gif)$"</value>
<!-- Exclude all videos -->
<value>".*\.(mpg|webm|ogg|flv)$"</value>
<!-- Exclude all audio files -->
<value>".*\.(mp3|oga|wav)$"</value>
<!-- Exclude other files -->
<value>".*\.(iso|tar|gz|zip|rar|exe)$"</value>
</list>
</property>
</bean>

然而,这似乎不起作用:图像仍然出现在抓取日志中。有人对此为何会有任何建议吗?

0 个答案:

没有答案