java:获取html内容

时间:2012-04-04 07:15:31

标签: java javascript html browser

我有一个包含一些java脚本标记的HTML文件。当我在某些浏览器(如IE)中运行此文件时,某些内容会从其源缓存并显示在浏览器上(例如某些城市的天气)。如何运行此html文件并获取之前在Web浏览器上显示的网页内容?我不想在我的应用程序上显示内容;我想解析返回的数据并提取一些特殊内容(例如提取每个城市的天气)。 有人可以指导我吗?

2 个答案:

答案 0 :(得分:1)

你要做的事情叫做html抓取。

您最好的选择是以图书馆的形式获得帮助,因为这是一项非常复杂的任务。

请参阅此问题:Options for HTML scraping?

答案 1 :(得分:0)

硒是一个不错的选择。它支持HtmlUnit,Firefox,Chrome以及其他浏览器。

链接:http://seleniumhq.org/