我使用的是Heritrix 3.2.0。
我想从一个网站获取所有内容,包括通常受robots.txt保护的网页。
但是,我不想要忽略其他网站的robots.txt。 (不要让Facebook或Google对我们生气,你知道)
我试图设置一个表格叠加,非常类似于3.0 / 3.1手册中的那个(在帖子的末尾)
作业构建时没有评论,但叠加似乎没有被触发,仍然遵守本地robots.txt。
那么,我做错了什么?
Stig Hemmer
<beans>
... all the normal default crawler-beans.cxml stuff ...
<bean id="sheetOverLayManager" autowire="byType"
class="org.archive.crawler.spring.SheetOverlaysManager">
</bean>
<bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
<property name='surtPrefixes'>
<list>
<value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
</value>
</list>
</property>
<property name='targetSheetNames'>
<list>
<value>noRobots</value>
</list>
</property>
</bean>
<bean id='noRobots' class='org.archive.spring.Sheet'>
<property name='map'>
<map>
<entry key='metadata.robotsPolicyName' value='ignore'/>
</map>
</property>
</bean>
</beans>
答案 0 :(得分:2)
这里有原创海报。一如既往,键盘和椅子之间存在问题。
事实证明我不明白SURT是如何工作的。
新的和改进的配置:
<property name='surtPrefixes'>
<list>
<value>http://(no,kommune,trondheim,</value>
<value>https://(no,kommune,trondheim,</value>
</list>
</property>
重要的变化是每个SURT的结束都是开放的,因为我实际上想在规则中包含子网站。
我还将两个SURT分成两个<value>
。不确定是否有必要,但至少它更具可读性。
我仍有问题,但至少我有新的问题!