答案 0 :(得分:3)
DNS解析是网络抓取中众所周知的瓶颈。因为 域名服务的分布式性质,DNS解析可能 需要通过互联网进行多次请求和往返, 要求秒,有时甚至更长。马上,这就投入了 危及我们每秒获取数百份文件的目标。
DNS解析还存在另一个重要问题;查找 标准库中的实现(可能被任何人使用) 开发爬虫)通常是同步的。这意味着一次 向域名服务请求,其他爬虫线程在 在第一个请求完成之前,该节点将被阻止。至 为了避免这种情况,大多数网络抓取工具都会实现自己的DNS解析器 抓取工具的一个组件。
http://nlp.stanford.edu/IR-book/html/htmledition/dns-resolution-1.html