我有这个website,我想在其中获取此网页的数据。所以我在python 3中尝试了这段代码。
from urllib.request import urlopen
html = urlopen("https://finance.yahoo.com/quote/MSFT/financials?p=MSFT").read()
f = open("D:/source.html", "wb")
f.write(html)
f.close()
问题是,如果您检查网站,则下载的页面不包含表中的所有数据,该表包含2部分数据,即“年度”和“季度”,季度部分未显示在结果中。
我尝试使用另一个库来完成此任务,它会下载每季度的完整数据,而当我比较2个网页时,我从库中获得的一个页面的大小要比使用该库下载的另一个页面更大。以上代码。
想在标准的python 3中做到这一点。
我也不知道该部分到底要搜索什么,或者怎样称呼此类网页,所以我需要帮助才能知道为什么未下载该网页完全吗?以及解决方法。
预先感谢。
答案 0 :(得分:0)
我相信您要访问的网站会阻止爬网,因此您应该尝试模拟一个浏览器,该浏览器可以很好地解决以下问题。 Python browser emulator with JS support