在抓取网页时,我会收到各种响应类型(image / text / html / json / css / js等)。我只需要.json文件而不是其他文件。如何使用HtmlUnit过滤其他响应类型?
问题是:所需数据存储在特定的.json文件中,而.json文件没有唯一的URL。所以我打算过滤其他响应类型并下载所有json文件的内容。稍后我将清理数据。
请帮忙。只是一个想法就够了。
答案 0 :(得分:0)
您可以看到修改请求和回复,如提示here。
检查网址是否包含.json
字符串,然后保存。
new WebConnectionWrapper(webClient) {
public WebResponse getResponse(WebRequest request) throws IOException {
WebResponse response = super.getResponse(request);
if (request.getUrl().toExternalForm().contains(".json")) {
String content = response.getContentAsString("UTF-8");
//save content
}
return response;
}
};