我正在尝试使用此文件使用wget下载文件列表:http://webdatacommons.org/downloads/2012-08/nquads/files.list
如下所述:http://webdatacommons.org/2012-08/stats/how_to_get_the_data.html#toc0
但我得到以下信息:
rbhagdev@rbhagdev-linux:~/RDF$ wget -i files.list
--2013-05-01 11:49:44-- http://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00000.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00001.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00002.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00003.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00004.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00005.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-geo-00006.nq.sort.gz%0Dhttp://webdatacommons.org/downloads/2012-08/nquads/html-mf-hcalendar-00000.nq.sort.gz 解决webdatacommons.org(webdatacommons.org)... 129.13.253.75 连接到webdatacommons.org (webdatacommons.org)| 129.13.253.75 |:80 ...已连接。 HTTP请求 发送,等待回复... 403 Forbidden 2013-05-01 11:49:44错误 403:禁止。
如果我只在该文件中使用一行,则可以正常工作。这表明这可能与换行符有关?我在Ubuntu上。有人可以建议为什么wget会这样表现吗?
答案 0 :(得分:2)
您必须替换文件的行尾字符。您可以使用此命令执行此操作
sed -e 's/\r/\n/g' files.list > files.list.new
wget -i files.list.new