Java中是否有任何方法可以阅读网页内容?
网页不是一个简单的HTML页面,它包含一个ajax调用,图像,PDF和Flash。 我需要读取/下载页面的所有内容(在执行ajax调用之后)。
请建议我解决此问题。
答案 0 :(得分:0)
为此目的,各种html解析器存在。你可以使用其中一个
http://ccil.org/~cowan/XML/tagsoup/
http://jericho.htmlparser.net/docs/index.html
这些解决方案提取您的html标签包含图像。对于css提取,你可以使用css解析器。
答案 1 :(得分:0)
您正在寻找抓取工具和处理工具。
列出了许多open source crawlers 。您可以将其与搜索服务器Solr一起使用