我想使用wget从网页下载一些csv文件。 (这是网页http://sinca.mma.gob.cl/index.php/region/index/id/II)。但是使用wget我只得到一些cgi-bin文件和其他格式文件,我想可以构建一个csv文件。鉴于我根本不了解javascript或构建csv文件所需的任何内容,有没有办法直接使用wget获取这些excel文件?
这是运行wget后的日志文件 --10:30:06-- http://sinca.mma.gob.cl/index.php/region/index/id/II => `sinca.mma.gob.cl/index.php/region/index/id/II” 解决sinca.mma.gob.cl ... 190.215.49.125 连接到sinca.mma.gob.cl [190.215.49.125]:80 ...连接。 发送HTTP请求,等待响应... 200 OK 长度:未指定[text / html]
CRITICAL_SECTION cs_A;
CRITICAL_SECTION cs_b;
::InitializeCriticalSection( &cs_A );
::InitializeCriticalSection( &cs_B );
::EnterCriticalSection( &cs_A ); // First level
/* do some stuff with A */
::EnterCriticalSection( &cs_B ); // Second level
/* do some stuff with A and B */
::LeaveCriticalSection( &cs_B ); // Second level
/* do some stuff with A */
::LeaveCriticalSection( &cs_A ); // First level
::DeleteCriticalSection( &cs_A );
::DeleteCriticalSection( &cs_B );
50K .......... .......... .......... .......... ...... .... 226.24 KB / s 100K。 1.44 MB / s
最后修改的标题丢失 - 时间戳已关闭。 10:30:09(50.81 KB / s) - `sinca.mma.gob.cl/index.php/region/index/id/II.html'已保存[103911]
删除sinca.mma.gob.cl/index.php/region/index/id/II.html,因为它应该被拒绝。
结束--10:30:09-- 已下载:1个文件中的103,911个字节 在0.00秒内转换0个文件。
答案 0 :(得分:1)
您需要提供wget生成所需文件的完整URL,例如:
wget -O test.csv "http://sinca.mma.gob.cl/cgi-bin/APUB-MMA/apub.tsindico2.cgi?outtype=xcl¯o=./RII/237/Cal/PM25//PM25.diario.diario.ic&from=13060100&to=15110323&path=/usr/airviro/data/CONAMA/&lang=esp&rsrc=¯opath="
我测试了上面的内容,我得到了与点击网站链接时完全相同的csv文件。该链接运行一些javascript,生成上面使用的URL。为了获得该URL,我点击了该链接,然后复制了地址栏中显示的地址。
答案 1 :(得分:0)
依赖于选项的Wget将获取您指定的所有文件,如果您要求它获取与其将完全相同的所有文件,除非权限不允许下载这些文件,如果您使用
wget -r --no-parent http://www.example.com/folder/
除非你否定特定类型的文件,否则将删除该目录的所有文件,文件夹和子文件夹,例如:
要过滤特定的文件扩展名:
wget -A pdf,jpg -m -p -E -k -K -np http://site/path/
或者,如果您更喜欢长选项名称:
wget --accept pdf,jpg --mirror --progress --adjust-extension --convert-links --backup-converted --no-parent http://site/path/
这将镜像网站,但不会自动删除没有jpg或pdf扩展名的文件。
因此,在回答您的问题时,是的,您可以指定您想要所有excel文件,而不是其他任何内容。
如果仍然无效,您可以尝试使用
-o wget.log
选项指定它以记录到文件,这样您就可以看到日志结果发布的内容,我会尽力帮助您。