如何使用wget或curl从此站点获取下载文件?

时间:2014-03-05 00:15:53

标签: curl wget

我想使用wget或curl从http://eng.krx.co.kr/por_eng/m2/m2_1/m2_1_3/JHPENG02001_03.jsp?isu_cd=A005930(Korea Stock Exchage)获取excel文件。

此网站中的表单标记如下所示。

<div class="board">

<h3 class="item"></h3>
<!--

 search 

-->
<div class="search">
    <form id="exKrx" onsubmit="return doSearch();" method="post" action="/por_eng/corelogic/process/m2/m2_1/m2_1_3/hpeng02001_03_01.xhtml?data-only=true" name="exKrx">
        <fieldset>
            <legend class="dpn"></legend>
            <table summary="searching by conditions"></table>
            <!--

             body_head_btn 

            -->
            <div class="body_head_btn">
                <input class="image" type="image" onclick="doSearch(); return false;" alt="search" src="http://inc.krx.co.kr/image/eng/cm/btn/bt1ask.gif"></input>
                <a title="Download" onclick="doExcel(); return false;" href="button.jsp">
                    <img alt="Download" src="http://inc.krx.co.kr/image/eng/cm/btn/bt1download.gif"></img>
                </a>
            </div>
            <div class="infomenu"></div>
            <!--

             //body_head_btn 

            -->
        </fieldset>
    </form>
</div>

我试过这样的事,但失败了。

wget -o ~/download/test.xls --post-data="se_key=TSIM5w+jLsm9LGMF0U4q1Q==" http://eng.krx.co.kr/por_kor/corelogic/process/m2/m2_1/m2_1_4/hpkor02001_04.xhtml?data-only=true

我该如何解决这个问题?

1 个答案:

答案 0 :(得分:0)

wget中的网址请求不正确,下载按钮会触发doExcel()功能,最终调用文件http://inc.krx.co.kr/common/inc/jslib/cjux.js中的excelDownLoad()

它将从下面的当前网址中保存表格中的数据,并导出为ex​​cel文件

http://eng.krx.co.kr/por_eng/m2/m2_1/m2_1_3/JHPENG02001_03.jsp?isu_cd=A005930

您似乎无法直接下载excel文件。

如果我是你,我将使用脚本通过http://eng.krx.co.kr/por_eng/m2/m2_1/m2_1_3/JHPENG02001_03.jsp?isu_cd=A005930下载数据并自行构建excel文件

请参阅Record http form posts via a browser,了解如何检查Chrome中的帖子请求