美丽的汤和提取数组的字符串部分

时间:2012-11-16 23:17:39

标签: python beautifulsoup

考虑此网址: http://www.nyse.com/about/listed/chn.html

我正在尝试检索这个字符串:'Pacific Ex Japan Funds'但它不在汤中!?!

fundCode = 'chn'
url = 'http://www.nyse.com/about/listed/' + fundCode + '.html'
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)

这桌子的其他部分都在汤里,这很奇怪。

有什么想法吗?

1 个答案:

答案 0 :(得分:1)

如果您下载HTML(没有浏览器)

content = html.read()

您将看到页面数据由JavaScript函数提供。

要从此页面中提取信息,您需要一个可以处理JavaScript的库。

一种方法是使用Selenium,另一种方法是使用PyQt's WebKit