我正在使用JSOUP在自动模式下解析网页并收到此类错误:
org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=image/jpeg,
作为解决方案,提供here使用ignoreContentType()函数,该函数将“强制jsoup忽略内容类型并将响应解析为HTML”。我不想将图片解析为HTML,因此有没有办法处理此类异常或获取内容类型如下:
if (Contenttype == 'text' or Contenttype == 'xml' or ...what_ever_other_text_format)
parse
else
do_nothing.
答案 0 :(得分:1)
使用HttpConnection.Response的方法contentType来获取内容类型并做出相应的决定
Connection.Response res = Jsoup.connect(“http://www.google.com/”)。timeout(10 * 1000).execute();
String contentType = res.contentType();