我正在使用jsoup获取URL的http状态代码,如下所示:
Connection.Response response = null
Document doc = Jsoup.connect(url).ignoreContentType(true).get()
response = Jsoup.connect(url)
.userAgent("Mozilla/5.0 (X11 Linux x86_64) AppleWebKit/535.21 (KHTML, like Gecko) Chrome/19.0.1042.0 Safari/535.21")
.timeout(10000)
.execute()
int statusCode = response.statusCode()
if (statusCode == 200)
urlExists = true
else
urlExists = false
基本上,我想检查指定的url是否返回200状态代码,即它是否为html页面,是否存在或是否为pdf文件,是否存在等等。它不适用于以.jpg结尾的网址,因为jpg文件无法解析jpg文件。我正在使用jsoup和crawler4j。有没有其他方法我可以找到所有网址的http状态代码。我的网址以下列扩展名结尾:
的CSS JS PDF格式 压缩 RAR 柏油 PNG GIF HTML
答案 0 :(得分:0)
你不能只使用
int responseCode = new URL(url).openConnection().responseCode