应用错误收集

用于检测网页上的列表项的Java库

时间：2010-08-25 22:22:14

标签： java pattern-matching webpage listitem

现在大多数网页都包含一些事物列表，或者重复很多的html模式块。

例如：

主页上的Facebook状态消息。
Digg / Hacker News
StackOverflow主页

是否有用于检测此类列表的Java库。它将涉及一些模式匹配和智能。感谢。

2 个答案:

答案 0 :(得分：0)

在XPath表达式和HTML元素“id”属性之间，你应该能够找到你感兴趣的列表的根，然后更多的XPath将让你迭代它们。

如果您还没有XPath，我建议使用HtmlUnit。是的，它适用于测试，但它非常适合作为“无头”浏览器，并且可以很好地支持XPath绕过页面的DOM。

答案 1 :(得分：0)

您可能想在谷歌上调查“刮刀”一词。从网页中精确定位提取数据被称为抓取，而不是捕获整个页面的“爬行”。