Question

我想在Eclipse中使用crawler4j解析包含我在“查询”中输入的文本的所有文档。

有什么想法吗？

Answer 1

不是真正的“直接”答案，但我最后几天也玩弄了。我先看了Crawler4J，然后偶然发现了JSoup。没有使用爬虫，但jSoup是一个非常简单的解析工具。因此我的建议。我想如果你真的需要抓取网络的一部分，爬虫是好的。但JSoup似乎真的是一个很好的解析器。在选择节点等方面类似于JQuery ...所以也许使用爬虫首先收集文档，然后使用JSoup解析它们。这是一个简单的例子：

    Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").timeout(5000)
            .get();
    Elements els = doc.select("li");

如何使用crawler4j解析文档

1 个答案: