Question

我尝试使用urllib抓取一个网站，但问题是一旦浏览器成为网址，网络将显示在主要内容区域中＆＃34;等待结果需要花费5到10秒＆＃34;，之后几秒钟，网络将接收数据并显示在主要内容区域。当页面成功从源接收数据时，如何获取正确的内容。我在这里使用python 2.7是代码：

  class NewOpener(urllib.FancyURLopener):
        version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'

nop = NewOpener()

content=""
cardata={}
try:
    page_raw = nop.open(url)
    page=page_raw.read()
    soup = bs(page)
    print soup

Answer 1

在page_raw.read()之后，网络服务器将为您提供此网址的全部内容page。在里面你会找到一个<script>标签，其中包含要加载更多内容的Javascript。

urllib.open等待内容完成加载

1 个答案: