网络抓取工具与HTML解析器

时间:2018-11-14 16:40:31

标签: java web-crawler jsoup crawler4j

网络搜寻器和解析器有什么区别?

在Java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫,将jsoup命名为解析器。

  

他们的目的相同吗?

他们的工作完全相似吗?

感谢

2 个答案:

答案 0 :(得分:1)

jsoup库是用于处理实际HTML的Java库。它能够获取并使用HTML。但是,通常它不是 网络爬虫,因为它一次只能使用jsoup来抓取,提取(而不编写自定义程序(= crawler))来抓取一页。并获取新的网址。

网络搜寻器使用HTML解析器从先前获取的网站提取 URL,并将此新发现的URL添加到其边界

可以在以下答案中找到Web搜寻器的一般顺序图:What sequence of steps does crawler4j follow to fetch data?

总结一下:

HTML解析器是Web搜寻器的必要组件,用于从给定的HTML输入中解析和提取URL。但是,仅HTML解析器不是 网络爬虫,因为它缺少一些必要的功能,例如维护以前访问的URL,礼貌等。

答案 1 :(得分:0)

在Wikipedia上查找即可轻松解决:

  

解析器是获取输入数据的软件组件(通常   文字)并构建数据结构

https://en.wikipedia.org/wiki/Parsing#Computer_languages

  

网络爬虫,有时也称为蜘蛛或蜘蛛机器人,通常   简称“爬虫”,是一种系统浏览的[Internet bot]   万维网,通常用于Web索引(Web   蜘蛛)。

https://en.wikipedia.org/wiki/Web_crawler