Question

我正在尝试使用jsoup创建一个爬虫我解析过的链接有这样的模式：

“baseURL时/图/ getmap.cfm？代码= 1234”

尝试使用浏览器输入上面的链接时，链接会重定向到

“baseURL时/地图/ getmap.cfm ID = 53545＆安培; TRANSID = 456”

我得到了我想要的文件（通过浏览器的浏览页面源）

但是当使用jsoup 来检索它时，

Jsoup.connect（ “baseURL时/地图/ getmap.cfm代码= 1234？”）得到（）;

它给了我这个HTML文档：

<html>
<head>
<script type="text/javascript">
    location.href ="baseUrl/maps/getmap.cfm?id=4552454&transid=1392335422404";
</script>
</head>
<body></body>
</html>

所以我做的是提取上述文档的链接并使用它来检索文档，然而它给了我一个空白的HTML 。
当我使用

时

baserul /地图/的GetMap ID = 53545＆安培; TRANSID = 456

直接在浏览器中我得到了正确的。

我也尝试了

Jsoup.connect（链接）.followRedirects（真）获得（）

但它不起作用

我该如何解决这个问题？

编辑：在网址中添加了缺失的“=”符号

我现在可以使用

检索html

“baseURL时/地图/ getmap.cfm ID = 53545＆安培; TRANSID = 456”

来自浏览器，但仍然无法使用jsoup

检索它

更新

异常报告给出状态= 500

使用jsoup检索使用javascript重定向的文档

0 个答案: