刚开始学习python。整个周末花了这个项目,但进展很糟糕。希望能从社区获得一些指导。
我的部分教程要求我从Google财经页面中提取数据。 https://www.google.com/finance。但只有部门汇总表。然后将它们组织成一个JSON转储。
到目前为止我遇到的问题是:
1)如何仅从扇区汇总表中提取数据?我可以find_all使用但结果返回包括其他表。
2)我如何获得每个部门的变化,即:(能源:0.99%,基本材料:0.31%,工业:0.17%)。没有我可以使用的唯一标签。唯一的字符是这些数字与扇区名称
相同答案 0 :(得分:0)
查看页面(使用View Source或浏览器的开发者工具),我们知道一些事情:
div
标记中id=secperf
唯一的一个(可能是'行业效果'的缩写)。有很多方法可以解决这个问题。一种方法如下:
def sector_summary(document):
table = document.find(id='secperf').find('table')
rows = table.find_all('tr', recursive=False)
for row in rows[1:]:
cells = row.find_all('td')
sector = cells[0].get_text().strip()
change = cells[1].get_text().strip()
yield (sector, change)
print(dict(sector_summary(my_document)))