有人可以在范围和功能方面区分爬虫和刮刀。
答案 0 :(得分:78)
抓取工具获取网页 - 即,给定一个起始地址(或一组起始地址)和一些条件(例如,要深入的链接数量,要忽略的文件类型),它会下载链接到的任何内容。起点。
刮刀获取已下载的页面,或者在更一般意义上,为已显示格式化的数据,并(尝试)从这些页面中提取数据,以便它(例如)可以存储在数据库中根据需要进行操纵。
根据您使用结果的方式,抓取可能会侵犯信息所有者和/或有关网站使用的用户协议的权利(在某些情况下,抓取也会违反后者)。许多网站在其根目录中包含一个名为robots.txt的文件(即具有网址http://server/robots.txt
),以指定抓取工具应如何(以及如果)处理该网站 - 特别是,它可以列出(部分)网址爬虫不应该尝试访问。如果需要,可以为每个爬虫(用户代理)单独指定这些。
答案 1 :(得分:4)
Web爬虫获取逻辑中的链接(Urls - Pages),并从HTML中获取值(提取)。
有很多网络抓取工具。 Visit page看一些。任何XML-HTML解析器都可用于从已爬网页面中提取(废弃)数据。 (我建议Jsoup解析和提取数据)
答案 2 :(得分:3)
Crawlers在链接后浏览网页。一个例子是获取索引页面的Google机器人。 Scrapers从表单中提取值,但不一定与Web有任何关系。
答案 3 :(得分:0)
通常,抓取工具会跟随链接到达多个页面,而在某种意义上,抓取工具只是拉动在线显示的内容而不会到达更深层次的链接。
最典型的抓取工具是谷歌机器人,它会按照链接访问您网站上的所有网页,并在内容发现有用时将其编入索引(这就是为什么您需要robots.txt来告诉您哪些内容不是想要被编入索引)。所以我们可以在其网站上搜索这类内容。虽然刮刀的目的只是为了个人用途而拉动内容,而不会对其他人产生太大影响。
但是,现在抓取工具和抓取工具没有明显区别,因为一些自动网络抓取工具还允许您通过遵循Octoparse和import.io等链接来抓取网站。他们不是像谷歌机器人这样的抓取工具,但他们能够自动抓取网站以获取大量数据而无需编码。
答案 4 :(得分:0)
抓取工具和抓取工具并不总是能够区分开,我的意思是-您可以找到抓取的抓取工具,实际上Scraper Crawler既抓取抓取工具,又被命名为:
答案 5 :(得分:0)
我知道这个问题已经很老了,但无论如何我都会为在这里想知道的新人做出回应。
据我所知,这两个术语似乎由于相似性而经常相互混淆,人们经常将它们称为同一事物。
然而,它们并不完全相同。爬虫(或蜘蛛)将跟踪它从起始页面爬取的页面中的每个链接。这就是为什么它也被称为蜘蛛机器人的原因,因为它会创建一种蜘蛛网页面。
爬虫会从页面中提取数据,通常是从爬虫下载的页面中提取数据。
如果您对其中任何一个感兴趣,可以尝试Norconex HTTP Collector。