从网页中提取内容并使用Java进行比较

时间:2012-03-06 06:22:15

标签: java javascript

我正在开发一个Java项目,其中我有一个子模块,我需要从网页中提取内容[文本,图像,颜色]并将其与其他网页进行比较。我打算使用WinHTTrack软件在本地下载网页,但问题是它不能将其保存为HTML。如何使用WinHTTrack等软件下载带有HTML扩展名的网页[或者只是通过ctrl + s保存网页是enogh。?]。此外,我计划在本地下载网页后使用HTML Parsers提取3种内容类型[文本,图像,颜色]。那么哪个解析器可以使用。?

1 个答案:

答案 0 :(得分:1)

我会使用Httrack,它也会获取html文件。您可能将winhttrack项目文件作为唯一的输出文件,但如果您在项目目录中检查有html文件(以及图像等)。我建议使用 - http://htmlparser.sourceforge.net/。它是一个java库,因为你的项目是一个Java项目,所以它应该很容易使用它。您还可以使用org.htmlparser.parserapplications.SiteCapturer在本地保存整个网站(并指定是否也应捕获图像等资源)。希望它有所帮助。