我正在编写一个应用程序,我们需要定期监视大约5000多个网站,并使用特定内容(如作者,标题,日期,摘要,内容等)填充数据库。因为我们正在寻找非常具体的准确的内容我们计划为每个站点/页面类型使用自定义设计的XPath脚本,并使用此类脚本来驱动解析器。
它是一个基于Java的应用程序。
Java中是否有现成的库来执行此操作?我们精通JTidy,但它并不完全符合我们的要求。
您可以推荐更好的方法吗?
请注意 - 我已经完成了大量的html解析/ XPath相关问题,并没有找到任何回答这个问题的内容。
非常感谢..
答案 0 :(得分:0)
jsoup可以进行解析并且有一个selector-syntax(类似于jQuery,所以如果你知道你正在飞行)可以轻松定位节点。
如果您想要进行HTML监控和下载,那么我会使用HttpClient。