Question

我正在用java编写应用程序我需要从网站上获取特定数据。我不知道使用哪一个是REGEX还是Parser.Can任何人请告诉我如何完成这项工作？哪个是首选。

由于

Answer 1

当然，获取HTML解析器

Here是一些关于Java HTML Parsers的比较。

其中一些人

NekoHTML:

final DOMParser parser = new DOMParser();
try {
    parser.parse(new InputSource(urlIS));
    document = parser.getDocument();
} catch (SAXException e) {
    e.printStackTrace();
} catch (IOException e) {
    e.printStackTrace();
}

TagSoup:

final Parser parser = new Parser();
SAX2DOM sax2dom = null;
try {
    sax2dom = new SAX2DOM();
    parser.setContentHandler(sax2dom);
    parser.setFeature(Parser.namespacesFeature, false);
    parser.parse(new InputSource(urlIS));
} catch (Exception e) {
    e.printStackTrace();
}
document = sax2dom.getDOM();

Answer 2

我认为这个选择非常"Even Jon Skeet cannot parse HTML using regular expressions."。根据你试图从html中提取信息的复杂程度，你可能会更好地使用某种解析器。你想从哪里拉什么？

关于解析器DOM和REGEX

2 个答案: