我正在制作一个简单的链接检查程序来检查我现在管理的网站中数千个文件的直接链接。所有文件都来自archive_org。我做了一个textarea
<table width="100%"> <tr><td>URLs to check:</td><td><textarea name="myurl" id="myurl" cols="100" rows="20"></textarea></td></tr>
<tr><td align="center" colspan="2"><br/><input class="text" type="submit" name="submitBtn" value="Check links"></td></tr> </table>
并且其上的所有链接都将存储在名为$ url的数组中(每个网址都放在一个新行中)
$url = explode("\n", $_POST['myurl']);
我使用print_r打印它,数组中的链接与输入的链接相同,没有添加任何字符。
我使用两种方法检查了网址:fopen()和curl函数,无论我放了多少链接,程序都看到所有链接都被破坏了,除了最后一个。数组中的最后一个链接是唯一正确检查的链接。
我使用了get_headers函数,我注意到所有链接(除了最后一个)都有下划线(_)添加到它们的末尾。 get_headers代码是:
for ($i=0;$i<count($url);$i++) {
$headers = @get_headers($url[$i]);
$headers = (is_array($headers)) ? implode( "\n ", $headers) : $headers;
print_r($headers);
echo "<br /><br />";
}
在标题中,我注意到链接是这样的:
HTTP / 1.0 302临时移动服务器:nginx / 1。1。19日期:星期一,2013年9月2日10:46:40 GMT内容类型:text / html; charset = UTF-8 X-Powered-By:PHP / 5.3.10-1ubuntu3.2 Accept-Ranges:bytes位置:http://ia600308.us.archive [dot] org / 23 / items / historyofthedecl00731gut / 1dfre012103.mp3_ X-Cache:来自Dataprolinks X-Cache的MISS:来自AIMAN-DPL X-Cache的MISS-Lookup:来自AIMAN-DPL的MISS:3128连接:关闭HTTP / 1.0 404未找到服务器:nginx / 1。1。19日期:星期一,02 2013年9月10:46:41 GMT内容类型:text / html; charset = UTF-8 X-Powered-By:PHP / 5.3.10-1ubuntu3.2 Set-Cookie:PHPSESSID = s2j3ct95vdji0ua89f32grd984;路径= /; domain = .archive.org到期日:1981年11月19日星期四08:52:00 GMT Cache-Control:no-store,no-cache,must-revalidate,post-check = 0,pre-check = 0 Pragma:no-缓存X-Cache:来自Dataprolinks X-Cache的MISS:来自AIMAN-DPL X-Cache的MISS-Lookup:来自AIMAN-DPL的MISS:3128连接:关闭
链接中添加了下划线,除了最后一个网址的标题外,没有添加下划线。我想这个下划线是造成检查错误的原因。
我在哪里犯错误?
答案 0 :(得分:3)
对于您的情况,我猜您在Windows中发布网址,当您按“ENTER”键分隔链接时,“ENTER”为为 “\ r \ n” 个即可。在WWW中,一定不能包含“\ r”,因此某处(php?curl?我根本不知道。)将其转换为“_”。< / p>
<?php
$urls = array();
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre011103.mp3';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre000103.txt';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre082103.mp3';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre001103.txt';
$urls[] = 'http://archive.org/download/historyofthedecl00731gut/1dfre141103.mp3';
print("<pre>" .print_r($urls, 1). "</pre><br /><br />");
foreach($urls as $url){
//ensure each url only start with ONE _ and end with ONE _
print("<pre>_" . $url . "_</pre>");
$header = array();
$headers = @get_headers($url);
print("<pre>" .print_r($headers, 1). "</pre><br /><br />");
}
?>
您可以使用我的代码进行简单的测试:每个链接都会在开头和结尾打印“_”。然后证明我的解释。如何解决:只需添加strip_tags(nl2br($url))
即可删除“\ r”,“\ n”。