我尝试使用urllib抓取一个网站,但问题是一旦浏览器成为网址,网络将显示在主要内容区域中"等待结果需要花费5到10秒",之后几秒钟,网络将接收数据并显示在主要内容区域。当页面成功从源接收数据时,如何获取正确的内容。我在这里使用python 2.7是代码:
class NewOpener(urllib.FancyURLopener):
version = 'Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.2 (KHTML, like Gecko) Ubuntu/11.10 Chromium/15.0.874.120 Chrome/15.0.874.120 Safari/535.2'
nop = NewOpener()
content=""
cardata={}
try:
page_raw = nop.open(url)
page=page_raw.read()
soup = bs(page)
print soup
答案 0 :(得分:0)
在page_raw.read()
之后,网络服务器将为您提供此网址的全部内容page
。在里面你会找到一个<script>
标签,其中包含要加载更多内容的Javascript。