java - 使用java中每个站点的自定义设计的特定xpath脚本解析html

时间：2011-09-06 15:31:39

标签： java html parsing xpath

我正在编写一个应用程序，我们需要定期监视大约5000多个网站，并使用特定内容（如作者，标题，日期，摘要，内容等）填充数据库。因为我们正在寻找非常具体的准确的内容我们计划为每个站点/页面类型使用自定义设计的XPath脚本，并使用此类脚本来驱动解析器。

它是一个基于Java的应用程序。

Java中是否有现成的库来执行此操作？我们精通JTidy，但它并不完全符合我们的要求。

您可以推荐更好的方法吗？

请注意 - 我已经完成了大量的html解析/ XPath相关问题，并没有找到任何回答这个问题的内容。

非常感谢..

答案 0 :(得分：0)

jsoup可以进行解析并且有一个selector-syntax（类似于jQuery，所以如果你知道你正在飞行）可以轻松定位节点。

如果您想要进行HTML监控和下载，那么我会使用HttpClient。