如何使网络刮板/爬虫/机器人“友好”?

时间:2019-05-16 13:34:36

标签: web-scraping web-crawler robots.txt

“友好”是指robots.txt [12] <meta> tag之外的注意事项:

  • 尊重某些指标(例如,通过定期抓取来节省带宽,或避免大量同时或重复的请求)
  • 透明度问责制(例如,使某人可以轻松查询有关其来源和目的的信息,例如this。通过为项目提供唯一的User-Agent HTTP标头?)
  • 此列表中还应包括什么?

0 个答案:

没有答案