我正在尝试使用jsoup创建一个爬虫 我解析过的链接有这样的模式:
“baseURL时/图/ getmap.cfm?代码= 1234”
尝试使用浏览器输入上面的链接时,链接会重定向到
“baseURL时/地图/ getmap.cfm ID = 53545&安培; TRANSID = 456”
我得到了我想要的文件(通过浏览器的浏览页面源)
但是当使用jsoup 来检索它时,
Jsoup.connect( “baseURL时/地图/ getmap.cfm代码= 1234?”)得到();
它给了我这个HTML文档:
<html>
<head>
<script type="text/javascript">
location.href ="baseUrl/maps/getmap.cfm?id=4552454&transid=1392335422404";
</script>
</head>
<body></body>
</html>
所以我做的是提取上述文档的链接并使用它来检索文档,
然而它给了我一个空白的HTML 。
当我使用
baserul /地图/的GetMap ID = 53545&安培; TRANSID = 456
直接在浏览器中我得到了正确的。
我也尝试了
Jsoup.connect(链接).followRedirects(真)获得()
但它不起作用
我该如何解决这个问题?
编辑: 在网址中添加了缺失的“=”符号
我现在可以使用
检索html“baseURL时/地图/ getmap.cfm ID = 53545&安培; TRANSID = 456”
来自浏览器,但仍然无法使用jsoup
检索它更新
异常报告给出状态= 500