我正在我的网站上构建一个脚本,但发现自己有点困惑如何使用最少的编码来使其工作良好。
基本上所需要的只是我可以输入一个网址,例如domain.com,它应该扫描该主页以查找指向我的域的链接,并检查并查看是否已分配rel =“nofollow”如果链接在没有rel =“nofollow”的情况下返回true,如果没有链接,或者在其上有rel =“nofollow”的链接,则返回false。
我将如何解决这个问题,或者我将从哪里开始。
我已经用谷歌搜索了如何创建一个蜘蛛,但它对于我想要创建的基本脚本的信息和复杂程度都很高!
答案 0 :(得分:1)
你要求的并不像你想象的那么简单。要正确执行此操作,您需要使用DOM解析器,例如DOMDocument
。
http://www.php.net/manual/en/class.domdocument.php
您可以使用其loadHTML()方法来解析要扫描的网页。在那里,您可以使用其各种功能查找您要查找的特定链接,并检查其属性以确保网址正确,并且您的rel="nofollow"
就在那里。
我向您保证,最终,这比仅搜索您的网址更容易。走盲道搜索道路会导致你得到不准确的结果,而且会比你意识到的更麻烦。
答案 1 :(得分:0)
看看http://simplehtmldom.sourceforge.net/.
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all links
foreach($html->find('a') as $element)
echo $element->href . '<br>';