如何使用wget获取csv文件

时间:2015-06-08 13:12:15

标签: wget

我想使用wget从网页下载一些csv文件。 (这是网页http://sinca.mma.gob.cl/index.php/region/index/id/II)。但是使用wget我只得到一些cgi-bin文件和其他格式文件,我想可以构建一个csv文件。鉴于我根本不了解javascript或构建csv文件所需的任何内容,有没有办法直接使用wget获取这些excel文件?

这是运行wget后的日志文件 --10:30:06-- http://sinca.mma.gob.cl/index.php/region/index/id/II            => `sinca.mma.gob.cl/index.php/region/index/id/II” 解决sinca.mma.gob.cl ... 190.215.49.125 连接到sinca.mma.gob.cl [190.215.49.125]:80 ...连接。 发送HTTP请求,等待响应... 200 OK 长度:未指定[text / html]

CRITICAL_SECTION cs_A;
CRITICAL_SECTION cs_b;

::InitializeCriticalSection( &cs_A );
::InitializeCriticalSection( &cs_B );

::EnterCriticalSection( &cs_A );      // First level

/* do some stuff with A */

::EnterCriticalSection( &cs_B );        // Second level

/* do some stuff with A and B */

::LeaveCriticalSection( &cs_B );        // Second level

/* do some stuff with A */

::LeaveCriticalSection( &cs_A );      // First level

::DeleteCriticalSection( &cs_A );
::DeleteCriticalSection( &cs_B );

50K .......... .......... .......... .......... ...... .... 226.24 KB / s   100K。 1.44 MB / s

最后修改的标题丢失 - 时间戳已关闭。 10:30:09(50.81 KB / s) - `sinca.mma.gob.cl/index.php/region/index/id/II.html'已保存[103911]

删除sinca.mma.gob.cl/index.php/region/index/id/II.html,因为它应该被拒绝。

结束--10:30:09-- 已下载:1个文件中的103,911个字节 在0.00秒内转换0个文件。

2 个答案:

答案 0 :(得分:1)

您需要提供wget生成所需文件的完整URL,例如:

wget -O test.csv "http://sinca.mma.gob.cl/cgi-bin/APUB-MMA/apub.tsindico2.cgi?outtype=xcl&macro=./RII/237/Cal/PM25//PM25.diario.diario.ic&from=13060100&to=15110323&path=/usr/airviro/data/CONAMA/&lang=esp&rsrc=&macropath="

我测试了上面的内容,我得到了与点击网站链接时完全相同的csv文件。该链接运行一些javascript,生成上面使用的URL。为了获得该URL,我点击了该链接,然后复制了地址栏中显示的地址。

答案 1 :(得分:0)

依赖于选项的Wget将获取您指定的所有文件,如果您要求它获取与其将完全相同的所有文件,除非权限不允许下载这些文件,如果您使用

wget -r --no-parent http://www.example.com/folder/

除非你否定特定类型的文件,否则将删除该目录的所有文件,文件夹和子文件夹,例如:

要过滤特定的文件扩展名:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/

或者,如果您更喜欢长选项名称:

wget --accept pdf,jpg --mirror --progress --adjust-extension --convert-links --backup-converted --no-parent http://site/path/

这将镜像网站,但不会自动删除没有jpg或pdf扩展名的文件。

因此,在回答您的问题时,是的,您可以指定您想要所有excel文件,而不是其他任何内容。

如果仍然无效,您可以尝试使用

-o wget.log

选项指定它以记录到文件,这样您就可以看到日志结果发布的内容,我会尽力帮助您。