这是一段代码:
... if (strcmp(email,root->data->data->email) == -1) {
基本上,使用urlllib.request.urlopen,在循环中递归打开url;在某些领域(在那种情况下activeingredients.com);页面的链接提取是通过regexpression完成的。在里面,有一个打开的页面,它解析它并作为字符串添加到列表中。所以,这是假设要做的是通过给定的域,提取信息(在这种情况下有意义的文本),添加到列表。尝试除了阻止,只是在所有http错误的情况下返回(以及所有其他错误,但这是经过测试和工作)。
例如,它适用于这个小页面,但是对于较大的页面来说,它非常慢并且会占用内存
我相信,解析,准备页面,或多或少做正确的工作
问题是,有没有一种有效的方法可以做到这一点?网络搜索如何快速浏览网络?
答案 0 :(得分:1)
首先:我不认为谷歌的webcrawler是在一台笔记本电脑或一台电脑上运行的。所以,如果你不能像大公司那样获得结果,请不要担心。
要考虑的要点:
您可以从许多网站下载的大量单词开头。这排除了一些无用的url组合。之后,您可以使用字母抓取,以便在索引上获得无用的命名网站。
您可以从dns服务器上所有已注册域的列表开始。 I.E.像这样:http://www.registered-domains-list.com
使用多线程
拥有更多带宽
考虑购买Google的数据中心
这些要点只是让您了解如何改进抓取工具的基本想法。