嘿,伙计们:)我正在用php编写搜索引擎,但想排除某些网址,使其免于被抓取,例如购物车,结帐页面和登录页面。这里的问题可能是我想抓取非英语网站。我也想排除社交媒体-Facebook和Instgram页面,并包含以下内容
我已经尝试过了:
mb_strpos($url, 'kasse', "UTF-8") !== false
但是这返回了UTF的语法错误,因此我尝试删除了围绕UTF-8的“”,因此我尝试使用单引号”,甚至在UTF周围也没有任何内容-尽管我得到了也是错误,所以我决定完全取出UTF位。但是我猜这也不对,因为现在我的履带无法正常工作了
getDetails($href);
}
if (mb_strpos($url, 'facebook') !== false || mb_strpos($url, 'twitter') !== false || mb_strpos($url, 'cart.php') !== false || mb_strpos($url, 'kurv') !== false || mb_strpos($url, 'konta') !== false || mb_strpos($url, 'Konta') !== false || mb_strpos($url, 'konto') !== false || mb_strpos($url, 'password') !== false || mb_strpos($url, 'loyniorð') !== false || mb_strpos($url, 'kasse') !== false || mb_strpos($url, 'login') !== false || mb_strpos($url, 'Kurv') !== false || mb_strpos($url, 'Kassi') !== false || mb_strpos($url, 'checkout') !== false || mb_strpos($url, 'Takk-fyri') !== false)
{
return;
尽管我已尽力而为,但网址仍不断被抓取
答案 0 :(得分:0)
行
mb_strpos($url, 'kasse', "UTF-8") !== false
应该是
mb_strpos($url, 'kasse', 0, "UTF-8") !== false