我正在使用Heritrix3,我们试图从使用MatchesListRegexDecideRule
抓取的URI集中排除图像,视频和存档,我已将其设置在crawler-beans.cxml配置文件中,该文件在启动时创建创造了工作:
<bean class="org.archive.modules.deciderules.MatchesListRegexDecideRule">
<property name="decision" value="REJECT"/>
<!-- <property name="listLogicalOr" value="true" /> -->
<property name="regexList">
<list>
<!-- Exclude all images -->
<value>".*\.(jpeg|jpg|png|tiff|gif)$"</value>
<!-- Exclude all videos -->
<value>".*\.(mpg|webm|ogg|flv)$"</value>
<!-- Exclude all audio files -->
<value>".*\.(mp3|oga|wav)$"</value>
<!-- Exclude other files -->
<value>".*\.(iso|tar|gz|zip|rar|exe)$"</value>
</list>
</property>
</bean>
然而,这似乎不起作用:图像仍然出现在抓取日志中。有人对此为何会有任何建议吗?