Robots.txt具有顶级域名的灵活性

时间:2015-09-09 03:55:09

标签: parsing python-3.x web-crawler python-3.4 robots.txt

所以我留给这个网络抓取工具的唯一问题就是让它到顶级域名更改的位置,比如说从imdb到youtube,然后它会将robots.txt从禁用imdb的规则切换到youtube 。我相信只需要在开始时声明变量的方式就可以解决这个问题。

SELECT (COUNT(1) AS IDExists FROM Members WHERE MemberID = '999999999999' LIMIT 1), (COUNT(1) AS PhoneExists FROM Members WHERE PhoneNumber = '5555555555' LIMIT 1)

1 个答案:

答案 0 :(得分:0)

只要您robots.txt中使用的域名与您yoursite.imdb的域名对应的域名匹配,就可以了。换句话说,您可以在所有网址中将yoursite.youtube替换为<mvc:annotation-driven/> <mvc:default-servlet-handler /> 。没关系。

<强>更新

假设您在robots.txt中声明了站点地图,那么它应该具有相同的tld。

http://www.yoursite.imbd/robots.txt

应包含:

站点地图:http://www.yoursite.imbd/sitemap1.xml(不是.youtube)

否则,对于允许或禁止等指令,没有影响,因为TDL不会出现在路径中。