Java中的HTMLParser

时间:2015-11-27 12:21:48

标签: java html-parsing

我正在使用HTML解析器库for java here

由于文档较少,我遇到了一些问题,因此我建议使用HTML解析器快速,容易出错的代码而不是JSOUP(Jsoup实际上很容易使用但很容易被代码激怒:()

  1. 是如何从HTML页面中提取元数据,描述的 2.如何从Parsed HTML文档中专门获取单个标记元素
  2. 谢谢!

1 个答案:

答案 0 :(得分:1)

获取标签“MyTag”,您还可以搜索标签< meta>

Parser parser = new Parser();
parser.setInputHTML(MyHTML);
parser.setEncoding("UTF-8");
NodeList nl = parser.parse(null); 
NodeList node_list= nl.extractAllNodesThatMatch(new TagNameFilter("MyTag"),true);