如何在HtmlUnit中过滤响应类型?

时间:2015-06-09 06:36:18

标签: java json http htmlunit

在抓取网页时,我会收到各种响应类型(image / text / html / json / css / js等)。我只需要.json文件而不是其他文件。如何使用HtmlUnit过滤其他响应类型?

问题是:所需数据存储在特定的.json文件中,而.json文件没有唯一的URL。所以我打算过滤其他响应类型并下载所有json文件的内容。稍后我将清理数据。

请帮忙。只是一个想法就够了。

1 个答案:

答案 0 :(得分:0)

您可以看到修改请求和回复,如提示here

检查网址是否包含.json字符串,然后保存。

   new WebConnectionWrapper(webClient) {

        public WebResponse getResponse(WebRequest request) throws IOException {
            WebResponse response = super.getResponse(request);
            if (request.getUrl().toExternalForm().contains(".json")) {
                String content = response.getContentAsString("UTF-8");

                //save content
            }
            return response;
        }
    };