标签: java html
我想知道是否有办法使用Java读取给定网页的html输出?
我知道在php中你可以做类似的事情:
$handle = @fopen("'http://www.google.com", "r"); $source_code = fread($handle,9000);
我正在寻找Java等价物。
此外,一旦我有渲染的html,是否有任何Java实用程序,允许我通过其ID删除单个div?
感谢您提供任何帮助。
答案 0 :(得分:2)
使用jsoup。
您可以选择树模型和类似于CSS或jQuery选择器的强大查询语法,以及快速获取网页源的实用程序方法。
引用他们的网站:
获取Wikipedia主页,将其解析为DOM,然后选择 从新闻部分到元素列表的标题: Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a");
获取Wikipedia主页,将其解析为DOM,然后选择 从新闻部分到元素列表的标题:
Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); Elements newsHeadlines = doc.select("#mp-itn b a");
找到代表您要移除的Element的{{1}}后,只需在其上调用remove()即可。
Element
remove()