什么是网络抓取工具?它是如何工作的?

时间:2015-03-12 15:42:57

标签: java-ee web-crawler crawler4j

我想学习使用Java EE进行网页抓取。我不知道从哪里开始。

什么是好书或教程?

3 个答案:

答案 0 :(得分:1)

网络爬虫也可以称为僵尸程序。它是一个小程序,使用网页中的链接抓取网页。它涉及解析HTML页面,提取可用于遍历网页的链接,您可以参考此post以获取有关网络爬虫及其工作原理的一些基本说明。

有多种库可用于实现简单的Web爬网程序。 JSoup是基于Java的库。它是解析HTML页面的一种广泛使用的库,因为它提供了一个非常方便的API,用于提取和操作数据,使用最好的DOM,CSS和类似jquery的方法。

此外,网上还提供各种教程。有关一些简单的java程序,请参阅这个简单的tutorial,该程序演示了以各种方式使用JSoup。

答案 1 :(得分:0)

web crawler是一种浏览互联网的应用程序,用于索引链接,页面等。 我建议你crawler4j这是基于Java和开源的。

答案 2 :(得分:0)

关于Web数据挖掘的一本非常好的书是“Web数据挖掘” 探索超链接,内容和使用数据“由Bing Liu

除了crawler4j,这是一个非常漂亮的爬虫框架(并且可以很容易地在Java EE环境中进行集成)。

此外,您可以查看Apache Nutch,它是一个可扩展的分布式爬虫框架。