应用错误收集

时间：2015-03-12 15:42:57

标签： java-ee web-crawler crawler4j

我想学习使用Java EE进行网页抓取。我不知道从哪里开始。

什么是好书或教程？

答案 0 :(得分：1)

网络爬虫也可以称为僵尸程序。它是一个小程序，使用网页中的链接抓取网页。它涉及解析HTML页面，提取可用于遍历网页的链接，您可以参考此post以获取有关网络爬虫及其工作原理的一些基本说明。

有多种库可用于实现简单的Web爬网程序。 JSoup是基于Java的库。它是解析HTML页面的一种广泛使用的库，因为它提供了一个非常方便的API，用于提取和操作数据，使用最好的DOM，CSS和类似jquery的方法。

此外，网上还提供各种教程。有关一些简单的java程序，请参阅这个简单的tutorial，该程序演示了以各种方式使用JSoup。

答案 1 :(得分：0)

web crawler是一种浏览互联网的应用程序，用于索引链接，页面等。我建议你crawler4j这是基于Java和开源的。

答案 2 :(得分：0)

关于Web数据挖掘的一本非常好的书是“Web数据挖掘” 探索超链接，内容和使用数据“由Bing Liu

除了crawler4j，这是一个非常漂亮的爬虫框架（并且可以很容易地在Java EE环境中进行集成）。

此外，您可以查看Apache Nutch，它是一个可扩展的分布式爬虫框架。