页面刮了一个特定的div

时间:2012-05-03 16:39:04

标签: java html

我想知道是否有办法使用Java读取给定网页的html输出?

我知道在php中你可以做类似的事情:

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

我正在寻找Java等价物。

此外,一旦我有渲染的html,是否有任何Java实用程序,允许我通过其ID删除单个div?

感谢您提供任何帮助。

1 个答案:

答案 0 :(得分:2)

使用jsoup

您可以选择树模型和类似于CSS或jQuery选择器的强大查询语法,以及快速获取网页源的实用程序方法。

引用他们的网站:

  

获取Wikipedia主页,将其解析为DOM,然后选择   从新闻部分到元素列表的标题:

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

找到代表您要移除的Element的{​​{1}}后,只需在其上调用remove()即可。