Question

我试图查看是否可以使用以下代码提取数据。出于某种原因，beautifulsoup打印输出并不包含我看到的数据。我想知道我哪里出错了。我一直在尝试不同类型的标题，这是我认为我的问题所在，但我可能错了。例如，当我在浏览器上检查页面时，我无法找到以下路径：<div class="textbold font-medium ng-binding">$25,000</div>

import urllib2
from bs4 import BeautifulSoup
url='https://www.prosper.com/listings#/detail/4964721'
hdr = {'Accept': 'text/html,application/xhtml+xml,*/*',"user-agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36"}
req=urllib2.Request(url,headers=hdr)
html = urllib2.urlopen(req)
soup=BeautifulSoup(html,"lxml")
print soup

Answer 1

url reponse必须像这样阅读

html = urllib2.urlopen(req).read()

根据您的示例，您似乎正在寻找渲染的HTML。

在您的情况下，向

发出ajax请求

"https://www.prosper.com/listings/search?options=%7B%22listing_number%22:4964721,%22resp_fields%22:%22BROWSE_LISTING%22,%22orderservice_call%22:%22Y%22%7D"

对这个ajax请求的响应是一个json，它被渲染到UI上。

urllib2没有从网站Python 2.7

1 个答案: