如何使用python刮取javascript表

时间:2015-07-07 21:21:30

标签: javascript python html datatable

我正试图从这个页面刮掉表格: http://data.eastmoney.com/xg/xg/ 有18个单独的页面,每个页面的网址都不会更改。

我将如何尝试抓取这些数据? 我通常使用BeautifulSoup来抓取HTML页面,但在这种情况下,HTML代码中没有数据,所以我不能在url上使用BeautifulSoup来获取我需要的数据。

我们非常感谢任何建议。

1 个答案:

答案 0 :(得分:1)

好好查看该页面的来源,只是调用这个url,它似乎返回了一个csv类型的文件,你可以弄清楚如何处理。

http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}&stat=1&rt=47876809

底线是你不应该刮掉这张桌子

查看&ps=50这是限制的值,将其设置为类似&ps=5000的内容,您不需要在页面之间进行操作。

&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}位是jsonp回调吗?