我想用C#创建一个抓取工具。问题是某些网站已在其 robots.txt 文件中禁用黑名单的抓取工具,使用:
User-agent: *
Disallow: /
有没有办法可以伪造我的请求以表明我是Googlebot?
答案 0 :(得分:3)
HttpWebRequest
有.UserAgent
,但是 - 我只想说:不要。
当然,你的重点robots.txt是没有意义的;这是你要遵循的。如果您编写了一个行为不当的工具,忽略了robots.txt
,而不管您声称为您的用户代理的,那么您应该会很快被列入黑名单。
特别是,试图冒充任何主要参与者是非常可疑的。坦率地说,我希望大多数主要网站也能检查传入的IP范围。
答案 1 :(得分:0)
是的,HttpWebRequest具有用户代理的属性。您可以将其设置为任何内容。