如何使用crawler4j解析文档

时间:2015-03-19 17:51:31

标签: search web web-crawler crawler4j

我想在Eclipse中使用crawler4j解析包含我在“查询”中输入的文本的所有文档。

有什么想法吗?

1 个答案:

答案 0 :(得分:0)

不是真正的“直接”答案,但我最后几天也玩弄了。我先看了Crawler4J,然后偶然发现了JSoup。没有使用爬虫,但jSoup是一个非常简单的解析工具。因此我的建议。我想如果你真的需要抓取网络的一部分,爬虫是好的。但JSoup似乎真的是一个很好的解析器。在选择节点等方面类似于JQuery ...所以也许使用爬虫首先收集文档,然后使用JSoup解析它们。这是一个简单的例子:

    Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").timeout(5000)
            .get();
    Elements els = doc.select("li");