Java代码中的解析器入门

时间:2010-04-19 21:27:04

标签: java parsing

我是解析器的新手。我想从网站上获取特定数据。我需要使用解析器。如何开始使用解析器?我需要下载什么? 使用Java中的解析器从网站获取数据的代码是什么?

1 个答案:

答案 0 :(得分:0)

我的建议是使用开源HTML解析器,例如HTMLCleaner - http://htmlcleaner.sourceforge.net/

您可以使用HTMLCleaner(或类似)创建网页DOM的表示形式,然后使用它来从网页中提取您想要的任何信息。

这个过程看起来像这样:

URL url = new URL("website you want to load");
HTMLCleaner h = new HTMLCleaner();
TagNode HtmlNode = h.clean(url.openStream());
//perform queries on the DOM to extract information