尝试(和失败)使用python美丽的汤从谷歌财务中刮取财务数据

时间:2014-06-24 20:19:53

标签: python web-scraping beautifulsoup

我是新手并且遇到麻烦,如果有人可以告诉我出错的地方(而不仅仅是一个解决方案),那将会很棒。

到目前为止,这是相当不言自明的......

import urllib2
from bs4 import BeautifulSoup

url = 'http://www.google.co.uk/finance?q=NASDAQ%3AAAPL&fstype=ii&ei=_dupU6DgFMTGwAPR6YHQDA'
page = urllib2.urlopen(url)
soup = BeautifulSoup(page)

我正在寻找的数据易于找到:

soup.find.all("tr",{"class":"hilite"})

在控制台中输入会显示所有正确的信息

我遇到的问题是如何将其用于for循环(我是编程的新手)。

我知道我的标头是1td class =lft lm bld,我的数据是td class = rbld,但我真的不知道如何将其插入数组。任何理解这背后概念的帮助都会很棒。

1 个答案:

答案 0 :(得分:0)

最简单的示例将迭代tr个代码并使用find_all()为每行获取td个代码:

for row in soup.find_all("tr", {'class': "hilite"}):
    for cell in row.find_all('td'):
        print cell.text
    print "-----"

打印:

Total Revenue

45,646.00
57,594.00
37,472.00
35,323.00
43,603.00
-----
Gross Profit

17,947.00
...