Question

我想知道是否有办法使用Java读取给定网页的html输出？

我知道在php中你可以做类似的事情：

$handle = @fopen("'http://www.google.com", "r");
$source_code = fread($handle,9000);

我正在寻找Java等价物。

此外，一旦我有渲染的html，是否有任何Java实用程序，允许我通过其ID删除单个div？

感谢您提供任何帮助。

Answer 1

使用jsoup。

您可以选择树模型和类似于CSS或jQuery选择器的强大查询语法，以及快速获取网页源的实用程序方法。

引用他们的网站：

获取Wikipedia主页，将其解析为DOM，然后选择从新闻部分到元素列表的标题：
Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
Elements newsHeadlines = doc.select("#mp-itn b a");

找到代表您要移除的Element的{{1}}后，只需在其上调用remove()即可。

页面刮了一个特定的div

1 个答案: