如何使Web爬虫更高效?

时间:2017-01-22 20:23:10

标签: python html web web-crawler

这是一段代码:

...  if (strcmp(email,root->data->data->email) == -1) {

基本上,使用urlllib.request.urlopen,在循环中递归打开url;在某些领域(在那种情况下activeingredients.com);页面的链接提取是通过regexpression完成的。在里面,有一个打开的页面,它解析它并作为字符串添加到列表中。所以,这是假设要做的是通过给定的域,提取信息(在这种情况下有意义的文本),添加到列表。尝试除了阻止,只是在所有http错误的情况下返回(以及所有其他错误,但这是经过测试和工作)。
例如,它适用于这个小页面,但是对于较大的页面来说,它非常慢并且会占用内存 我相信,解析,准备页面,或多或少做正确的工作 问题是,有没有一种有效的方法可以做到这一点?网络搜索如何快速浏览网络?

1 个答案:

答案 0 :(得分:1)

首先:我不认为谷歌的webcrawler是在一台笔记本电脑或一台电脑上运行的。所以,如果你不能像大公司那样获得结果,请不要担心。

要考虑的要点:

  1. 您可以从许多网站下载的大量单词开头。这排除了一些无用的url组合。之后,您可以使用字母抓取,以便在索引上获得无用的命名网站。

  2. 您可以从dns服务器上所有已注册域的列表开始。 I.E.像这样:http://www.registered-domains-list.com

  3. 使用多线程

  4. 拥有更多带宽

  5. 考虑购买Google的数据中心

  6. 这些要点只是让您了解如何改进抓取工具的基本想法。