urllib.open等待内容完成加载

时间:2015-05-05 13:53:48

标签: python urllib

我尝试使用urllib抓取一个网站,但问题是一旦浏览器成为网址,网络将显示在主要内容区域中"等待结果需要花费5到10秒",之后几秒钟,网络将接收数据并显示在主要内容区域。当页面成功从源接收数据时,如何获取正确的内容。我在这里使用python 2.7是代码:

  class NewOpener(urllib.FancyURLopener):
        version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'

nop = NewOpener()

content=""
cardata={}
try:
    page_raw = nop.open(url)
    page=page_raw.read()
    soup = bs(page)
    print soup

1 个答案:

答案 0 :(得分:0)

page_raw.read()之后,网络服务器将为您提供此网址的全部内容page。在里面你会找到一个<script>标签,其中包含要加载更多内容的Javascript。