我最近构建了一个简单的网络爬虫,我希望在网络上使用它。我的问题是我遵循的道德规则以及如何遵循它们。我听说过robot.txt文件,如何在python中打开它以及如何处理它?它们是我需要遵循的其他道德规则,例如每秒最多站点数等吗? 提前完成。
答案 0 :(得分:3)
robot.txt 是网络蜘蛛的简单文本文件,其中网站所有者列出了他们不想通过网络蜘蛛索引的网页。但是对于大多数人而言,通过假装您的网络蜘蛛向用户提供的信息仍然无法消除。
您对网页的所有请求都将包含代理服务器的 User_agent (russian version with more examples)元数据 - 您是谁 - 拥有Firefox的用户或Feedly fetcher等网络蜘蛛(Feedly / 1.0(+ http://www.feedly.com/fetcher.html;与FeedFetcher-Google一样。)您还可以假装使用IE 6.0用户。
道德和道德 - 不违反刑法。在每个有地下室内容的网站上都有一个链接“隐私”,在大多数情况下要求他们参考源材料。一旦我以每秒15页的速度抓取一个新闻网站,我被禁止作为DDoS攻击的10分钟,但是当我设置200ms的动作间隔时。一切顺利。但这取决于服务器配置。