网络搜寻器和解析器有什么区别?
在Java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫,将jsoup命名为解析器。
他们的目的相同吗?
他们的工作完全相似吗?
感谢
答案 0 :(得分:1)
jsoup
库是用于处理实际HTML的Java库。它能够获取并使用HTML。但是,通常它不是 网络爬虫,因为它一次只能使用jsoup
来抓取,提取(而不编写自定义程序(= crawler))来抓取一页。并获取新的网址。
网络搜寻器使用HTML解析器从先前获取的网站提取 URL,并将此新发现的URL添加到其边界。
可以在以下答案中找到Web搜寻器的一般顺序图:What sequence of steps does crawler4j follow to fetch data?
总结一下:
HTML解析器是Web搜寻器的必要组件,用于从给定的HTML输入中解析和提取URL。但是,仅HTML解析器不是 网络爬虫,因为它缺少一些必要的功能,例如维护以前访问的URL,礼貌等。
答案 1 :(得分:0)
在Wikipedia上查找即可轻松解决:
解析器是获取输入数据的软件组件(通常 文字)并构建数据结构
https://en.wikipedia.org/wiki/Parsing#Computer_languages
网络爬虫,有时也称为蜘蛛或蜘蛛机器人,通常 简称“爬虫”,是一种系统浏览的[Internet bot] 万维网,通常用于Web索引(Web 蜘蛛)。