我是解析器的新手。我想从网站上获取特定数据。我需要使用解析器。如何开始使用解析器?我需要下载什么? 使用Java中的解析器从网站获取数据的代码是什么?
答案 0 :(得分:0)
我的建议是使用开源HTML解析器,例如HTMLCleaner - http://htmlcleaner.sourceforge.net/
您可以使用HTMLCleaner(或类似)创建网页DOM的表示形式,然后使用它来从网页中提取您想要的任何信息。
这个过程看起来像这样:
URL url = new URL("website you want to load");
HTMLCleaner h = new HTMLCleaner();
TagNode HtmlNode = h.clean(url.openStream());
//perform queries on the DOM to extract information