JSOUP没有得到完整的HTML但在python urllib2中工作

时间:2013-06-04 18:37:05

标签: jsoup

网站 URL = http://m.ibuildapp.com/site/ibuildapp_3/default?filter=webapp&searchText=&searchCat=254&page=1&url=http%3A%2F%2Fibuildapp.com%2Fprojects.php%3F#2601 当用Java(JSOUP)抓取时,不会获得完整的源代码(没有AJAX) 但是python urllib2很容易获得整个html。 java代码:

Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A293 Safari/6531.22.7").timeout(10000).get();

只获取页面源代码的一半作为python代码

import urllib2
request = urllib2.Request("http://m.ibuildapp.com/site/ibuildapp_3/default?filter=webapp&searchText=&searchCat=254&page=1&url=http%3A%2F%2Fibuildapp.com%2Fproject$
opener = urllib2.build_opener()
request.add_header('User-Agent', 'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8A293$
filter=webapp&searchText=&searchCat=254&page=1&url=http%3A%2F%2Fibuildapp.com%2Fprojects$
data = opener.open(request).read()
print data

可能有什么不对? 我尝试添加引荐来源,Cookie以及添加标题。

1 个答案:

答案 0 :(得分:0)

添加标题

Accept-Encoding:gzip, deflate 

解决了问题