为了好玩,我正在编写一个在HTML文档中查找数据的基本解析器。我想找到代表解析文件分支的最佳结构。 “最佳结构”的标准是:我想轻松搜索标签的相对位置并访问其内容,例如“身体中第三个h3标签后的第二个图像标签中的图像”或“标签中的标题标签”头”。
我希望搜索我正在寻找的标签的第一级标签,然后进入与该标签关联的分支。这是这个问题正在寻找的结构,但是如果有更好的方法来查找HTML文档中的相对位置,请解释一下。
这就是问题所在。更一般地说,通过API可以表示哪种Java结构可以表示树数据结构?
答案 0 :(得分:1)
不要重新发明方向盘,只需使用像Jsoup这样的HTML解析器,即使CSS selector
使用方法Element#select(cssQuery)
,您也可以获取代码。
Document doc = Jsoup.parse(file, encoding);
Elements elements = doc.select(cssQuery);