我有一个html文件,我需要提取相应表格的表格标题,但标题和表格位于不同的div部分。我目前的想法是,既然我们可以直接访问html文件中的所有表,并且给定表内容的字体大小大多数时候都小于表名的字体大小,我想使用每个表元素列表作为一个枢轴来遍历以识别更大字体的元素,但是我不确定如何实现这一点。
我是jsoup的初学者,所以我想我可以在节点遍历上得到一些建议。同样欣赏任何其他替代方法。
例如,在以下链接中https://www.sec.gov/Archives/edgar/data/713676/000119312515070443/d836469d10k.htm 我需要在第26页表中提取表格,并将名称标记为“注册人执行官”的表格。 虽然提取表格很容易,但我不确定如何提取“表格的名称”。 我认为一个选项是通过previousElementSibling方法在兄弟节点之间遍历来验证属性中的字体大小,并与捕获的表字体大小进行比较,如果没有兄弟姐妹给出更大的字体大小,我会遍历父级别并监视到他们的孩子。然而,更大的挑战是这种方法是否能很好地概括为其他文件。