Question

这是一段代码：

...  if (strcmp(email,root->data->data->email) == -1) {

基本上，使用urlllib.request.urlopen，在循环中递归打开url;在某些领域（在那种情况下activeingredients.com）;页面的链接提取是通过regexpression完成的。在里面，有一个打开的页面，它解析它并作为字符串添加到列表中。所以，这是假设要做的是通过给定的域，提取信息（在这种情况下有意义的文本），添加到列表。尝试除了阻止，只是在所有http错误的情况下返回（以及所有其他错误，但这是经过测试和工作）。
例如，它适用于这个小页面，但是对于较大的页面来说，它非常慢并且会占用内存我相信，解析，准备页面，或多或少做正确的工作问题是，有没有一种有效的方法可以做到这一点？网络搜索如何快速浏览网络？

Answer 1

首先：我不认为谷歌的webcrawler是在一台笔记本电脑或一台电脑上运行的。所以，如果你不能像大公司那样获得结果，请不要担心。

要考虑的要点：

您可以从许多网站下载的大量单词开头。这排除了一些无用的url组合。之后，您可以使用字母抓取，以便在索引上获得无用的命名网站。
您可以从dns服务器上所有已注册域的列表开始。 I.E.像这样：http://www.registered-domains-list.com
使用多线程
拥有更多带宽
考虑购买Google的数据中心

这些要点只是让您了解如何改进抓取工具的基本想法。

如何使Web爬虫更高效？

1 个答案: