社交网络泡沫分享提取使用美丽的汤

时间:2015-10-12 10:22:18

标签: python-2.7 beautifulsoup

stackoveflow新手 所以我使用美丽的汤从'techcrunch.com'的文章中提取数据进行一些独立的研究。我似乎轻松地提取了大部分数据,但在尝试从社交网络图标上方的微小气泡中获取数据时遇到了麻烦,这些图标描述了该文章通过该媒体的份额数量。

无论任何社交网络的股票数量如何......返回给我的价值是0。

from BeautifulSoup import BeautifulSoup
import urllib2
url="http://techcrunch.com/2015/10/11/the-other-ag-sector-problem-that-big-data-can-solve/"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())
data=soup.find('div',{'class':'bubble total-facebook'})
print data.text

cmd - 0中的结果 (但Facebook上的现有股票是171)...请帮助!

1 个答案:

答案 0 :(得分:0)

那是因为这个号码是由Javascript动态加载的。如果你在浏览器中查看页面源,你会看到类“bubble total-facebook”的div实际上是一个“0”的文本,这也是BeautifulSoup看到的。

支持javascript的无头浏览器可能有所帮助。 我想你可以参考这个问题:

Headless Browser for Python (Javascript support REQUIRED!)