Question

我刚开始使用HTTPClient，我想要一个网页并从中提取原始文本，减去所有的html标记。

HTTPClient可以实现吗？如果是这样，怎么样？或者我应该看另一个图书馆吗？

例如，如果页面包含

<body><p>para1 test info</p><div><p>more stuff here</p></div>

我希望输出

para1 test info more stuff here

Answer 1

我建议使用HttpComponents Client (HTTPClient 4)（而不是您链接的版本3）。

这就是说，它独立于HTTP客户端库（还有其他库）。您需要的是将HTML转换为纯文本。这可能是有意义的：http://www.rgagnon.com/javadetails/java-0424.html

Answer 2

没有。 HttpClient处理网络协议 - 发送请求和接收响应。一旦收到响应，您可以自行决定如何处理响应。也就是说，您可以像其他人建议的那样使用其他库来解析HTML。

Answer 3

HTML Parser library可能正是您要找的。它允许从HTML文档中提取内容。

Answer 4

正如其他人所提到的，您需要一个HTML解析库。 Here是一个相关问题。