我刚开始使用HTTPClient,我想要一个网页并从中提取原始文本,减去所有的html标记。
HTTPClient可以实现吗?如果是这样,怎么样?或者我应该看另一个图书馆吗?
例如,如果页面包含
<body><p>para1 test info</p><div><p>more stuff here</p></div>
我希望输出
para1 test info more stuff here
答案 0 :(得分:1)
我建议使用HttpComponents Client (HTTPClient 4)(而不是您链接的版本3)。
这就是说,它独立于HTTP客户端库(还有其他库)。您需要的是将HTML转换为纯文本。这可能是有意义的:http://www.rgagnon.com/javadetails/java-0424.html
答案 1 :(得分:1)
没有。 HttpClient处理网络协议 - 发送请求和接收响应。一旦收到响应,您可以自行决定如何处理响应。也就是说,您可以像其他人建议的那样使用其他库来解析HTML。
答案 2 :(得分:0)
HTML Parser library可能正是您要找的。它允许从HTML文档中提取内容。
答案 3 :(得分:0)
正如其他人所提到的,您需要一个HTML解析库。 Here是一个相关问题。