应用错误收集

robot.txt 是网络蜘蛛的简单文本文件，其中网站所有者列出了他们不想通过网络蜘蛛索引的网页。但是对于大多数人而言，通过假装您的网络蜘蛛向用户提供的信息仍然无法消除。

您对网页的所有请求都将包含代理服务器的 User_agent （russian version with more examples）元数据 - 您是谁 - 拥有Firefox的用户或Feedly fetcher等网络蜘蛛（Feedly / 1.0（+ http://www.feedly.com/fetcher.html;与FeedFetcher-Google一样。）您还可以假装使用IE 6.0用户。

道德和道德 - 不违反刑法。在每个有地下室内容的网站上都有一个链接“隐私”，在大多数情况下要求他们参考源材料。

一旦我以每秒15页的速度抓取一个新闻网站，我被禁止作为DDoS攻击的10分钟，但是当我设置200ms的动作间隔时。一切顺利。但这取决于服务器配置。

使用网络爬虫的道德规范

1 个答案: