Question

stackoveflow新手所以我使用美丽的汤从'techcrunch.com'的文章中提取数据进行一些独立的研究。我似乎轻松地提取了大部分数据，但在尝试从社交网络图标上方的微小气泡中获取数据时遇到了麻烦，这些图标描述了该文章通过该媒体的份额数量。

无论任何社交网络的股票数量如何......返回给我的价值是0。

from BeautifulSoup import BeautifulSoup
import urllib2
url="http://techcrunch.com/2015/10/11/the-other-ag-sector-problem-that-big-data-can-solve/"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
data=soup.find('div',{'class':'bubble total-facebook'})
print data.text

cmd - 0中的结果（但Facebook上的现有股票是171）...请帮助！

Answer 1

那是因为这个号码是由Javascript动态加载的。如果你在浏览器中查看页面源，你会看到类“bubble total-facebook”的div实际上是一个“0”的文本，这也是BeautifulSoup看到的。

支持javascript的无头浏览器可能有所帮助。我想你可以参考这个问题：

Headless Browser for Python (Javascript support REQUIRED!)

社交网络泡沫分享提取使用美丽的汤

1 个答案: