使用HTTPClient获取网页文本

时间:2010-07-07 18:49:25

标签: java httpclient

我刚开始使用HTTPClient,我想要一个网页并从中提取原始文本,减去所有的html标记。

HTTPClient可以实现吗?如果是这样,怎么样?或者我应该看另一个图书馆吗?

例如,如果页面包含

<body><p>para1 test info</p><div><p>more stuff here</p></div>

我希望输出

para1 test info more stuff here

4 个答案:

答案 0 :(得分:1)

我建议使用HttpComponents Client (HTTPClient 4)(而不是您链接的版本3)。

这就是说,它独立于HTTP客户端库(还有其他库)。您需要的是将HTML转换为纯文本。这可能是有意义的:http://www.rgagnon.com/javadetails/java-0424.html

答案 1 :(得分:1)

没有。 HttpClient处理网络协议 - 发送请求和接收响应。一旦收到响应,您可以自行决定如何处理响应。也就是说,您可以像其他人建议的那样使用其他库来解析HTML。

答案 2 :(得分:0)

HTML Parser library可能正是您要找的。它允许从HTML文档中提取内容。

答案 3 :(得分:0)

正如其他人所提到的,您需要一个HTML解析库。 Here是一个相关问题。