我正在处理爬虫,我有以下问题:它适用于简单的HTTP请求,但不适用于HTTPS,我需要发出HTTPS请求。我将端口更改为443并尝试发送相同的请求,但我收到400错误。显然,我需要改变别的东西,但我不知道是什么。我打开套接字,这就是我提出请求的方式:
String request
= "GET " + file
+ (file.endsWith("robots.txt") ? " HTTP/1.0\r\n" : " HTTP/1.1\r\n")
// " HTTP/1.1\r\n"
+ "User-Agent: " + CrawlerConfig.USER_AGENT + "\r\n"
// + ((!CrawlerConfig.SAVE_IMAGES) ? "Accept: text/html\r\n" : "")
// + "Accept: text/*\r\n"
+ (file.endsWith("robots.txt") ? "Connection: close\r\n" : "")
+ "Host: " + host + "\r\n" + "\r\n"/*
* + body
*/;
outStream.write(request.getBytes("US-ASCII"));
outStream.flush();
答案 0 :(得分:0)
尝试在资源上发送OPTIONS请求,应该返回所需的请求标头,有些可能会丢失。