用于阅读网站内容的Java代码

时间:2012-12-07 06:04:35

标签: java web-crawler

Java中是否有任何方法可以阅读网页内容?

网页不是一个简单的HTML页面,它包含一个ajax调用,图像,PDF和Flash。 我需要读取/下载页面的所有内容(在执行ajax调用之后)。

请建议我解决此问题。

2 个答案:

答案 0 :(得分:0)

为此目的,各种html解析器存在。你可以使用其中一个

http://ccil.org/~cowan/XML/tagsoup/

http://jsoup.org/

http://jericho.htmlparser.net/docs/index.html

这些解决方案提取您的html标签包含图像。对于css提取,你可以使用css解析器。

答案 1 :(得分:0)

您正在寻找抓取工具和处理工具。

列出了许多open source crawlers 。您可以将其与搜索服务器Solr一起使用