如何自动进行URL测试?

时间:2013-10-04 14:38:52

标签: url web indexing analytics qa

我的任务是清理几个大型新闻/媒体网站的索引,以改进我们的分析报告。这些索引中的许多URL都已过时,因此我正在寻找一种解决方案,只需检查每个URL a)是否存在或b)是否存在。

总的来说,我有大约40,000多个网址来检查我目前在.csv

中的网址

对此有任何建议或指示将不胜感激!

3 个答案:

答案 0 :(得分:0)

根据您对服务器的访问权限,您有多种选择。

使用来自任何计算机的脚本

一种解决方案是使用脚本请求所有URL。向每个网址发送HTTP-HEAD-request并检查404200响应代码可能是最简单的。如果服务器没有超载,他们应该能够处理那么多的请求。如果您不想将负荷增加到很多,您可以安排夜间请求。

服务器上的日志分析或离线

如果您有权访问网络服务器日志文件,您还可以扫描它们以查找网址和相应的响应代码。这显然只有在服务器记录请求并且您可以访问这些文件时才有效。 此方法的好处是,您不会在服务器上创建任何不必要的负载,并且可以花费您分析文件所需的时间。 另一方面日志文件可能非常大,最近可能无法调用您文件中的网址。

答案 1 :(得分:0)

您可以执行curl并通过bash脚本查看每个结果。

如:

grep <filename> | xargs curl

这可能是 -inredibly - 很难从你的角度阅读。

或者,您可以使用Selenium +单元测试来联系每个网址并报告哪些网址失败。唯一的缺点是一次以.csv格式读出一个URL文件。从文本文件中执行此操作,由换行符分隔可能会更容易。

example这样的东西会有很多帮助。

另外,如果你写得足够好,那么你只需点击即可让魔术发生。你会看到每个测试的结果。

我希望这会有所帮助。

答案 2 :(得分:0)

我同意Byf-ferdy,我会查看回复代码。对我来说,最简单的方法是使用JMeter。它有GUI,所以你不需要编程。如果您下载JMeter,那么几个例子就是“在框中”。其中一个例子是如何从.csv文件中读取。您可以根据需要自定义该示例。