考虑此网址: http://www.nyse.com/about/listed/chn.html
我正在尝试检索这个字符串:'Pacific Ex Japan Funds'但它不在汤中!?!
fundCode = 'chn'
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html'
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)
这桌子的其他部分都在汤里,这很奇怪。
有什么想法吗?
答案 0 :(得分:1)
如果您下载HTML(没有浏览器)
content = html.read()
您将看到页面数据由JavaScript函数提供。
要从此页面中提取信息,您需要一个可以处理JavaScript的库。
一种方法是使用Selenium,另一种方法是使用PyQt's WebKit。