我正在用java编写应用程序我需要从网站上获取特定数据。我不知道使用哪一个是REGEX还是Parser.Can任何人请告诉我如何完成这项工作?哪个是首选。
由于
答案 0 :(得分:1)
当然,获取HTML解析器
Here是一些关于Java HTML Parsers的比较。
其中一些人
NekoHTML:
final DOMParser parser = new DOMParser();
try {
parser.parse(new InputSource(urlIS));
document = parser.getDocument();
} catch (SAXException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
TagSoup:
final Parser parser = new Parser();
SAX2DOM sax2dom = null;
try {
sax2dom = new SAX2DOM();
parser.setContentHandler(sax2dom);
parser.setFeature(Parser.namespacesFeature, false);
parser.parse(new InputSource(urlIS));
} catch (Exception e) {
e.printStackTrace();
}
document = sax2dom.getDOM();
答案 1 :(得分:1)
我认为这个选择非常"Even Jon Skeet cannot parse HTML using regular expressions."。根据你试图从html中提取信息的复杂程度,你可能会更好地使用某种解析器。你想从哪里拉什么?