如何在使用crawler4j时解析html

时间:2013-09-05 14:18:49

标签: java crawler4j

最近,我不得不使用开源项目crawler4j抓取一些网站。但是,crawler4j没有提供任何使用api。现在,我遇到了一个问题,我怎么能解析一个html与提供的功能和类crawler4j和find我们用jquery

一样找到元素

1 个答案:

答案 0 :(得分:7)

这相对简单。以下方法对我有用。

MyCrawler.java

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
...
public void visit(Page page) {
...
if (page.getParseData() instanceof HtmlParseData) {
                    HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
                    String html = htmlParseData.getHtml();
                    Document doc = Jsoup.parseBodyFragment(html);
...