用于检测网页上的列表项的Java库

时间:2010-08-25 22:22:14

标签: java pattern-matching webpage listitem

现在大多数网页都包含一些事物列表,或者重复很多的html模式块。

例如:

  1. 主页上的Facebook状态消息。
  2. Digg / Hacker News
  3. StackOverflow主页
  4. 是否有用于检测此类列表的Java库。它将涉及一些模式匹配和智能。感谢。

2 个答案:

答案 0 :(得分:0)

在XPath表达式和HTML元素“id”属性之间,你应该能够找到你感兴趣的列表的根,然后更多的XPath将让你迭代它们。

如果您还没有XPath,我建议使用HtmlUnit。是的,它适用于测试,但它非常适合作为“无头”浏览器,并且可以很好地支持XPath绕过页面的DOM。

答案 1 :(得分:0)

您可能想在谷歌上调查“刮刀”一词。从网页中精确定位提取数据被称为抓取,而不是捕获整个页面的“爬行”。