应用错误收集

爬虫与刮刀

时间：2010-07-08 19:56:12

标签： web-crawler terminology scraper

有人可以在范围和功能方面区分爬虫和刮刀。

6 个答案:

答案 0 :(得分：78)

抓取工具获取网页 - 即，给定一个起始地址（或一组起始地址）和一些条件（例如，要深入的链接数量，要忽略的文件类型），它会下载链接到的任何内容。起点。

刮刀获取已下载的页面，或者在更一般意义上，为已显示格式化的数据，并（尝试）从这些页面中提取数据，以便它（例如）可以存储在数据库中根据需要进行操纵。

根据您使用结果的方式，抓取可能会侵犯信息所有者和/或有关网站使用的用户协议的权利（在某些情况下，抓取也会违反后者）。许多网站在其根目录中包含一个名为robots.txt的文件（即具有网址http://server/robots.txt），以指定抓取工具应如何（以及如果）处理该网站 - 特别是，它可以列出（部分）网址爬虫不应该尝试访问。如果需要，可以为每个爬虫（用户代理）单独指定这些。

答案 1 :(得分：4)

Web爬虫获取逻辑中的链接（Urls - Pages），并从HTML中获取值（提取）。

有很多网络抓取工具。 Visit page看一些。任何XML-HTML解析器都可用于从已爬网页面中提取（废弃）数据。（我建议Jsoup解析和提取数据）

答案 2 :(得分：3)

Crawlers在链接后浏览网页。一个例子是获取索引页面的Google机器人。 Scrapers从表单中提取值，但不一定与Web有任何关系。

答案 3 :(得分：0)

通常，抓取工具会跟随链接到达多个页面，而在某种意义上，抓取工具只是拉动在线显示的内容而不会到达更深层次的链接。

最典型的抓取工具是谷歌机器人，它会按照链接访问您网站上的所有网页，并在内容发现有用时将其编入索引（这就是为什么您需要robots.txt来告诉您哪些内容不是想要被编入索引）。所以我们可以在其网站上搜索这类内容。虽然刮刀的目的只是为了个人用途而拉动内容，而不会对其他人产生太大影响。

但是，现在抓取工具和抓取工具没有明显区别，因为一些自动网络抓取工具还允许您通过遵循Octoparse和import.io等链接来抓取网站。他们不是像谷歌机器人这样的抓取工具，但他们能够自动抓取网站以获取大量数据而无需编码。

答案 4 :(得分：0)

抓取工具和抓取工具并不总是能够区分开，我的意思是-您可以找到抓取的抓取工具，实际上Scraper Crawler既抓取抓取工具，又被命名为：

它会爬网到一个URL，即索引该主URL中的所有URL
爬网深度是索引在URL树中进行的程度
然后抓取您在正则表达式中定义的任何内容

答案 5 :(得分：0)

我知道这个问题已经很老了，但无论如何我都会为在这里想知道的新人做出回应。

据我所知，这两个术语似乎由于相似性而经常相互混淆，人们经常将它们称为同一事物。

然而，它们并不完全相同。爬虫（或蜘蛛）将跟踪它从起始页面爬取的页面中的每个链接。这就是为什么它也被称为蜘蛛机器人的原因，因为它会创建一种蜘蛛网页面。

爬虫会从页面中提取数据，通常是从爬虫下载的页面中提取数据。

如果您对其中任何一个感兴趣，可以尝试Norconex HTTP Collector。