我正试图从这个页面刮掉表格: http://data.eastmoney.com/xg/xg/ 有18个单独的页面,每个页面的网址都不会更改。
我将如何尝试抓取这些数据? 我通常使用BeautifulSoup来抓取HTML页面,但在这种情况下,HTML代码中没有数据,所以我不能在url上使用BeautifulSoup来获取我需要的数据。
我们非常感谢任何建议。
答案 0 :(得分:1)
好好查看该页面的来源,只是调用这个url,它似乎返回了一个csv类型的文件,你可以弄清楚如何处理。
http://datainterface.eastmoney.com/EM_DataCenter/JS.aspx?type=NS&sty=NSST&st=12&sr=-1&p=1&ps=50&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}&stat=1&rt=47876809
底线是你不应该刮掉这张桌子
查看&ps=50
这是限制的值,将其设置为类似&ps=5000
的内容,您不需要在页面之间进行操作。
&js=var%20IBnVRrwA={pages:%28pc%29,data:[%28x%29]}
位是jsonp回调吗?