我试图通过Beautiful this page中的BeautifulSoup 4提取每股收益数据。
当我解析数据时,使用默认的lxml
和HTML 5解析器缺少表信息。我相信这与Javascript有关,我一直在尝试实现PyV8
将脚本转换为BS4的可读HTML。问题是我不知道从哪里开始。
你知道这是不是我的问题?我一直在阅读很多帖子,这对我来说是一个非常头疼的问题。以下是一个简单的例子。 financeWrap
包含表信息,但beautifulSoup显示它是空的。
import requests
from bs4 import BeautifulSoup
url = "http://financials.morningstar.com/ratios/r.html?t=AAPL®ion=usa&culture=en-US"
response = requests.get(url)
soup_key_ratios = bs(response.content, 'html5lib')
financial_tables = soup_key_ratios.find("div", {"id":"financeWrap"})
print financial_tables
# Output: <div id="financeWrap">
# </div>