Question

我使用的是Heritrix 3.2.0。

我想从一个网站获取所有内容，包括通常受robots.txt保护的网页。

但是，我不想要忽略其他网站的robots.txt。（不要让Facebook或Google对我们生气，你知道）

我试图设置一个表格叠加，非常类似于3.0 / 3.1手册中的那个（在帖子的末尾）

作业构建时没有评论，但叠加似乎没有被触发，仍然遵守本地robots.txt。

那么，我做错了什么？

Stig Hemmer

<beans>
  ... all the normal default crawler-beans.cxml stuff ...

  <bean id="sheetOverLayManager" autowire="byType"
        class="org.archive.crawler.spring.SheetOverlaysManager">
  </bean>

  <bean class='org.archive.crawler.spring.SurtPrefixesSheetAssociation'>
    <property name='surtPrefixes'>
     <list>
       <value>
http://(no,kommune,trondheim,)/
https://(no,kommune,trondheim,)/
       </value>
     </list>
   </property>
   <property name='targetSheetNames'>
     <list>
       <value>noRobots</value>
     </list>
   </property>
 </bean>

 <bean id='noRobots' class='org.archive.spring.Sheet'>
   <property name='map'>
     <map>
       <entry key='metadata.robotsPolicyName' value='ignore'/>
     </map>
   </property>
 </bean>
</beans>

Answer 1

这里有原创海报。一如既往，键盘和椅子之间存在问题。

事实证明我不明白SURT是如何工作的。

新的和改进的配置：

<property name='surtPrefixes'>
  <list>
    <value>http://(no,kommune,trondheim,</value>
    <value>https://(no,kommune,trondheim,</value>
  </list>
</property>

重要的变化是每个SURT的结束都是开放的，因为我实际上想在规则中包含子网站。

我还将两个SURT分成两个<value>。不确定是否有必要，但至少它更具可读性。

我仍有问题，但至少我有新的问题！

Heritrix：仅针对一个站点忽略robots.txt

1 个答案: