我想使用wget或curl从http://eng.krx.co.kr/por_eng/m2/m2_1/m2_1_3/JHPENG02001_03.jsp?isu_cd=A005930(Korea Stock Exchage)获取excel文件。
此网站中的表单标记如下所示。
<div class="board">
<h3 class="item"></h3>
<!--
search
-->
<div class="search">
<form id="exKrx" onsubmit="return doSearch();" method="post" action="/por_eng/corelogic/process/m2/m2_1/m2_1_3/hpeng02001_03_01.xhtml?data-only=true" name="exKrx">
<fieldset>
<legend class="dpn"></legend>
<table summary="searching by conditions"></table>
<!--
body_head_btn
-->
<div class="body_head_btn">
<input class="image" type="image" onclick="doSearch(); return false;" alt="search" src="http://inc.krx.co.kr/image/eng/cm/btn/bt1ask.gif"></input>
<a title="Download" onclick="doExcel(); return false;" href="button.jsp">
<img alt="Download" src="http://inc.krx.co.kr/image/eng/cm/btn/bt1download.gif"></img>
</a>
</div>
<div class="infomenu"></div>
<!--
//body_head_btn
-->
</fieldset>
</form>
</div>
我试过这样的事,但失败了。
wget -o ~/download/test.xls --post-data="se_key=TSIM5w+jLsm9LGMF0U4q1Q==" http://eng.krx.co.kr/por_kor/corelogic/process/m2/m2_1/m2_1_4/hpkor02001_04.xhtml?data-only=true
我该如何解决这个问题?
答案 0 :(得分:0)
wget
中的网址请求不正确,下载按钮会触发doExcel()
功能,最终调用文件http://inc.krx.co.kr/common/inc/jslib/cjux.js中的excelDownLoad()
它将从下面的当前网址中保存表格中的数据,并导出为excel文件
http://eng.krx.co.kr/por_eng/m2/m2_1/m2_1_3/JHPENG02001_03.jsp?isu_cd=A005930
您似乎无法直接下载excel文件。
如果我是你,我将使用脚本通过http://eng.krx.co.kr/por_eng/m2/m2_1/m2_1_3/JHPENG02001_03.jsp?isu_cd=A005930下载数据并自行构建excel文件
请参阅Record http form posts via a browser,了解如何检查Chrome中的帖子请求