我想在Eclipse中使用crawler4j解析包含我在“查询”中输入的文本的所有文档。
有什么想法吗?
答案 0 :(得分:0)
不是真正的“直接”答案,但我最后几天也玩弄了。我先看了Crawler4J,然后偶然发现了JSoup。没有使用爬虫,但jSoup是一个非常简单的解析工具。因此我的建议。我想如果你真的需要抓取网络的一部分,爬虫是好的。但JSoup似乎真的是一个很好的解析器。在选择节点等方面类似于JQuery ...所以也许使用爬虫首先收集文档,然后使用JSoup解析它们。这是一个简单的例子:
Document doc = Jsoup.connect("http://example.com").userAgent("Mozilla").timeout(5000)
.get();
Elements els = doc.select("li");