应用错误收集

如何使用python刮取javascript表

时间：2015-07-07 21:21:30

标签： javascript python html datatable

我正试图从这个页面刮掉表格： http://data.eastmoney.com/xg/xg/ 有18个单独的页面，每个页面的网址都不会更改。

我将如何尝试抓取这些数据？我通常使用BeautifulSoup来抓取HTML页面，但在这种情况下，HTML代码中没有数据，所以我不能在url上使用BeautifulSoup来获取我需要的数据。

我们非常感谢任何建议。

1 个答案:

答案 0 :(得分：1)

好好查看该页面的来源，只是调用这个url，它似乎返回了一个csv类型的文件，你可以弄清楚如何处理。

http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}&stat=1&rt=47876809

底线是你不应该刮掉这张桌子

查看&ps=50这是限制的值，将其设置为类似&ps=5000的内容，您不需要在页面之间进行操作。

&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}位是jsonp回调吗？