我有一个页面抓取器用于从网站的子目录中抓取内容,而我的重写规则正在干扰内容抓取。例如,刮刀正在抓取旧版本网站的内容:
/catalog/catalog.asp?page=23§ion=14
然后使用它来填充新版本:
/PartsBook/Catalog.aspx?page=23§ion=14
除了使用此内容预先填充新网站之外,我还会将旧网址重定向到将其标记为新网址的用户。问题在于它导致刮刀尝试读取新页面而不是旧页面。有没有办法使用规则条件将规则限制为仅影响非本地请求?
答案 0 :(得分:0)
也许您可以将此代码段用于网址重写。您可以通过将{REMOTE_ADDR}与剪贴板IP进行比较来进行过滤。
<rule name="Block SomeRobot" stopProcessing="true">
<match url="^folder1/folder2" />
<conditions logicalGrouping="MatchAny">
<add input="{REMOTE_ADDR}" pattern="XXX\.XXX\.XXX\.[0-5]" />
</conditions>
<action type="redirect" url=""/>
</rule>