如何通过html-agility-pack进行网页抓取时隐藏自己

时间:2014-04-11 18:25:48

标签: asp.net web-scraping html-agility-pack

我正在尝试从网站的某些网页中删除内容。我用c#尝试了html-agility-pack,它在抓取html方面做得很好。这里我需要在抓取时浏览一些页面。现在我的问题是如何将自己隐藏为webscraper?因为我不希望其他方面知道我正在抓他们的内容。如果有任何方法可以帮助我,请告诉我。请找到你的回复。

谢谢

1 个答案:

答案 0 :(得分:0)

使用代理:

Tor Project

您可以在每个页面之后或每个站点之后重置代理。请记住,有些网站会查找某些模式,并可以告诉您抓取它们。使用html敏捷包,网络是一个大数据存储库,只需确保您不会以一种让您遇到麻烦的方式使用其他人的数据。