网页抓取和网页抓取有什么区别?

时间:2010-12-01 17:54:58

标签: search-engine web-scraping web-crawler

Crawling和Web抓取之间有区别吗?

如果存在差异,为了收集一些网络数据以供以后在自定义搜索引擎中使用而使用的最佳方法是什么?

5 个答案:

答案 0 :(得分:104)

抓取基本上是谷歌,雅虎,MSN等所做的,寻找任何信息。刮擦通常针对某些网站,例如针对特定数据,例如对于价格比较,所以编码方式完全不同。

通常刮刀会定制到它应该抓取的网站上,并且会做(好的)爬虫不会做的事情,即:

  • 不考虑robots.txt
  • 将自己标识为浏览器
  • 提交带有数据的表单
  • 执行Javascript(如果需要) 像用户一样行事)

答案 1 :(得分:56)

是的,他们是不同的。实际上,您可能需要同时使用它们。

(我必须跳进去,因为到目前为止,其他答案都没有达到它的本质。他们使用示例但不明确区别。当然,它们是从2010年开始!)

Web抓取,使用最小定义,是处理Web文档并从中提取信息的过程。您可以在不进行网页抓取的情况下进行网页抓取。

Web爬行,使用最小定义,是从种子URL列表开始迭代查找和获取Web链接的过程。严格地说,要进行网页抓取,你必须进行一定程度的网页抓取(以提取网址。)

澄清其他答案中提到的一些概念:

  • robots.txt旨在应用于访问网页的任何自动过程。所以它适用于爬虫和刮刀。

  • '正确'的爬虫和刮刀都应该准确识别自己。

一些参考文献:

答案 2 :(得分:7)

AFAIK网页抓取是Google所做的 - 它围绕着一个网站查看链接并构建该网站布局数据库及其链接的网站

Web Scraping将是一个网页的加速分析,用于加载一些数据,EG加载BBC天气和翻录(刮除)天气预测并将其放置在其他地方或在另一个程序中使用它。 / p>

答案 3 :(得分:0)

这两者之间肯定存在差异。一个是访问一个站点,另一个是提取。

答案 4 :(得分:0)

我们抓取网站以广泛了解网站的结构,网页之间的连接,估计我们需要多长时间访问我们感兴趣的所有网页。刮痧通常难以实施,但它的本质是数据提取。让我们想一想用纸张覆盖网站时用一些矩形切出来刮擦。我们现在只能看到我们需要的东西,完全忽略所有页面(如导航,页脚,广告)常见的网站部分,或作为评论或面包屑的无关信息。 有关抓取和报废之间差异的更多信息,请访问:https://tarantoola.io/web-scraping-vs-web-crawling/