现在大多数网页都包含一些事物列表,或者重复很多的html模式块。
例如:
是否有用于检测此类列表的Java库。它将涉及一些模式匹配和智能。感谢。
答案 0 :(得分:0)
在XPath表达式和HTML元素“id”属性之间,你应该能够找到你感兴趣的列表的根,然后更多的XPath将让你迭代它们。
如果您还没有XPath,我建议使用HtmlUnit。是的,它适用于测试,但它非常适合作为“无头”浏览器,并且可以很好地支持XPath绕过页面的DOM。
答案 1 :(得分:0)
您可能想在谷歌上调查“刮刀”一词。从网页中精确定位提取数据被称为抓取,而不是捕获整个页面的“爬行”。