使用java中每个站点的自定义设计的特定xpath脚本解析html

时间:2011-09-06 15:31:39

标签: java html parsing xpath

我正在编写一个应用程序,我们需要定期监视大约5000多个网站,并使用特定内容(如作者,标题,日期,摘要,内容等)填充数据库。因为我们正在寻找非常具体的准确的内容我们计划为每个站点/页面类型使用自定义设计的XPath脚本,并使用此类脚本来驱动解析器。

它是一个基于Java的应用程序。

Java中是否有现成的库来执行此操作?我们精通JTidy,但它并不完全符合我们的要求。

您可以推荐更好的方法吗?

请注意 - 我已经完成了大量的html解析/ XPath相关问题,并没有找到任何回答这个问题的内容。

非常感谢..

1 个答案:

答案 0 :(得分:0)

jsoup可以进行解析并且有一个selector-syntax(类似于jQuery,所以如果你知道你正在飞行)可以轻松定位节点。

如果您想要进行HTML监控和下载,那么我会使用HttpClient