应用错误收集

时间：2018-11-14 16:40:31

标签： java web-crawler jsoup crawler4j

网络搜寻器和解析器有什么区别？

在Java中，有一些用于获取库的名称。例如，他们将nutch命名为爬虫，将jsoup命名为解析器。

他们的目的相同吗？

他们的工作完全相似吗？

感谢

答案 0 :(得分：1)

jsoup库是用于处理实际HTML的Java库。它能够获取并使用HTML。但是，通常它不是网络爬虫，因为它一次只能使用jsoup来抓取，提取（而不编写自定义程序（= crawler））来抓取一页。并获取新的网址。

网络搜寻器使用HTML解析器从先前获取的网站提取 URL，并将此新发现的URL添加到其边界。

可以在以下答案中找到Web搜寻器的一般顺序图：What sequence of steps does crawler4j follow to fetch data?

总结一下：

HTML解析器是Web搜寻器的必要组件，用于从给定的HTML输入中解析和提取URL。但是，仅HTML解析器不是网络爬虫，因为它缺少一些必要的功能，例如维护以前访问的URL，礼貌等。

答案 1 :(得分：0)

在Wikipedia上查找即可轻松解决：

解析器是获取输入数据的软件组件（通常文字）并构建数据结构

网络爬虫，有时也称为蜘蛛或蜘蛛机器人，通常简称“爬虫”，是一种系统浏览的[Internet bot] 万维网，通常用于Web索引（Web 蜘蛛）。