用于获取URL列表的HTTP状态代码的脚本?

时间:2011-05-26 08:58:37

标签: bash curl http-status-codes

我有一个我需要检查的URL列表,看看它们是否仍然有效。我想写一个bash脚本,为我做这个。

我只需要返回的HTTP状态代码,即200,404,500等等。没什么。

编辑请注意,如果页面显示“404 not found”但返回200 OK消息,则会出现问题。这是一个配置错误的Web服务器,但您可能需要考虑这种情况。

有关详情,请参阅Check if a URL goes to a page containing the text "404"

8 个答案:

答案 0 :(得分:173)

Curl有一个特定选项--write-out,用于:

$ curl -o /dev/null --silent --head --write-out '%{http_code}\n' <url>
200
  • -o /dev/null抛弃通常的输出
  • --silent扔掉进度表
  • --head发出HEAD HTTP请求,而不是GET
  • --write-out '%{http_code}\n'打印所需的状态代码

将其包装在一个完整的Bash脚本中:

#!/bin/bash
while read LINE; do
  curl -o /dev/null --silent --head --write-out "%{http_code} $LINE\n" "$LINE"
done < url-list.txt

(鹰眼读者会注意到,这会对每个URL使用一个卷曲进程,这会对fork和TCP连接造成惩罚。如果在一个卷曲中组合多个URL会更快,但是没有空间可以写出来卷曲所需要的巨大重复选项。)

答案 1 :(得分:35)

wget --spider -S "http://url/to/be/checked" 2>&1 | grep "HTTP/" | awk '{print $2}'

仅为您打印状态代码

答案 2 :(得分:28)

扩展Phil已经提供的答案。如果你使用xargs进行调用,那么在bash中加入并行性是没有意义的。

这里是代码:

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' < url.lst

-n1 :只使用一个值(来自列表)作为curl调用的参数

-P10 :随时保持10个卷曲过程(即10个并行连接)

检查卷曲手册中的write_out参数,了解可以使用它提取的更多数据(时间等)。

如果它有助于某人这是我正在使用的电话:

xargs -n1 -P 10 curl -o /dev/null --silent --head --write-out '%{url_effective};%{http_code};%{time_total};%{time_namelookup};%{time_connect};%{size_download};%{speed_download}\n' < url.lst | tee results.csv

它只是将一堆数据输出到csv文件中,该文件可以导入到任何办公工具中。

答案 3 :(得分:7)

使用curl仅获取HTTP标头(而不是整个文件)并解析它:

$ curl -I  --stderr /dev/null http://www.google.co.uk/index.html | head -1 | cut -d' ' -f2
200

答案 4 :(得分:4)

wget -S -i *file*会从文件中的每个网址获取标题。

通过grep专门过滤状态代码。

答案 5 :(得分:4)

这依赖于广泛使用的wget,甚至在Alpine Linux上也几乎无处不在。

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

说明如下:

--quiet

  

关闭Wget的输出。

     

源-wget手册页

--spider

  

[...]它不会下载页面,只需检查它们是否在那里。 [...]

     

源-wget手册页

--server-response

  

打印HTTP服务器发送的标头和FTP服务器发送的响应。

     

源-wget手册页

对于--server-response,他们没有说的是这些标头输出已打印到standard error (sterr),因此需要redirect进行标准输入。

将输出发送到标准输入,我们可以将其通过管道传输到awk以提取HTTP状态代码。该代码是:

  • 第二个($2)非空白字符组:{$2}
  • 标题的第一行:NR==1

并且因为我们要打印它... {print $2}

wget --server-response --spider --quiet "${url}" 2>&1 | awk 'NR==1{print $2}'

答案 6 :(得分:1)

我找到了一个用Python编写的工具“ webchk”,返回了网址列表的状态码。 https://pypi.org/project/webchk/

输出看起来像这样:

▶ webchk -i ./dxieu.txt | grep '200'
http://salesforce-case-status.dxi.eu/login ... 200 OK (0.108)
https://support.dxi.eu/hc/en-gb ... 200 OK (0.389)
https://support.dxi.eu/hc/en-gb ... 200 OK (0.401)

希望有帮助!

答案 7 :(得分:0)

由于https://mywiki.wooledge.org/BashPitfalls#Non-atomic_writes_with_xargs_-P(来自xargs中并行作业的输出存在混合风险),我将使用GNU Parallel而不是xargs进行并行化:

cat url.lst |
  parallel -P0 -q curl -o /dev/null --silent --head --write-out '%{url_effective}: %{http_code}\n' > outfile

在这种特殊情况下,使用xargs可能是安全的,因为输出太短了,因此使用xargs的问题在于,如果以后有人更改代码以做更大的事情,它将将不再安全。或者,如果有人阅读了这个问题,并认为他可以用其他东西代替curl,那可能也不安全。