应用错误收集

从网页中提取内容并使用Java进行比较

时间：2012-03-06 06:22:15

标签： java javascript

我正在开发一个Java项目，其中我有一个子模块，我需要从网页中提取内容[文本，图像，颜色]并将其与其他网页进行比较。我打算使用WinHTTrack软件在本地下载网页，但问题是它不能将其保存为HTML。如何使用WinHTTrack等软件下载带有HTML扩展名的网页[或者只是通过ctrl + s保存网页是enogh。？]。此外，我计划在本地下载网页后使用HTML Parsers提取3种内容类型[文本，图像，颜色]。那么哪个解析器可以使用。？

1 个答案:

答案 0 :(得分：1)

我会使用Httrack，它也会获取html文件。您可能将winhttrack项目文件作为唯一的输出文件，但如果您在项目目录中检查有html文件（以及图像等）。我建议使用 - http://htmlparser.sourceforge.net/。它是一个java库，因为你的项目是一个Java项目，所以它应该很容易使用它。您还可以使用org.htmlparser.parserapplications.SiteCapturer在本地保存整个网站（并指定是否也应捕获图像等资源）。希望它有所帮助。