我正在使用apache库中的HttpClient,HttpGet,HttpResponse类来获取网页正文(html文本)。
但作为回应,我得到的是这样的东西:
<meta name="viewport"
content="width=device-width, initial-scale=1.0, maximum-scale=1.0,
user-scalable=0"
/>
<style>a {
color: #2EA3F2
}
body {
color: #666
}
.et_pb_counter_amount,
.et_pb_featured_table
.et_pb_pricing_heading, .et_quote_content, .et_link_content, .et_audio_c
ontent {
background-color: #2EA3F2
}
在这里,我可以看到css和javascript代码以及HTML。
问题:
有没有办法通过apache库获取没有javascript和css的html代码,使用某种标题或元数据?
P.S。我知道像jsoup这样的库。
- 编辑 我可以理解 - 这是不可能的,因此问题已经结束。