如何排除要在php中爬网的网址

时间:2019-05-21 18:15:47

标签: php

嘿,伙计们:)我正在用php编写搜索引擎,但想排除某些网址,使其免于被抓取,例如购物车,结帐页面和登录页面。这里的问题可能是我想抓取非英语网站。我也想排除社交媒体-Facebook和Instgram页面,并包含以下内容

我已经尝试过了:

mb_strpos($url, 'kasse', "UTF-8") !== false 

但是这返回了UTF的语法错误,因此我尝试删除了围绕UTF-8的“”,因此我尝试使用单引号”,甚至在UTF周围也没有任何内容-尽管我得到了也是错误,所以我决定完全取出UTF位。但是我猜这也不对,因为现在我的履带无法正常工作了

    getDetails($href);
} 
if (mb_strpos($url, 'facebook') !== false || mb_strpos($url, 'twitter') !== false || mb_strpos($url, 'cart.php') !== false || mb_strpos($url, 'kurv') !== false || mb_strpos($url, 'konta') !== false || mb_strpos($url, 'Konta') !== false || mb_strpos($url, 'konto') !== false || mb_strpos($url, 'password') !== false || mb_strpos($url, 'loyniorð') !== false || mb_strpos($url, 'kasse') !== false || mb_strpos($url, 'login') !== false || mb_strpos($url, 'Kurv') !== false || mb_strpos($url, 'Kassi') !== false || mb_strpos($url, 'checkout') !== false || mb_strpos($url, 'Takk-fyri') !== false) 
{    
    return;

尽管我已尽力而为,但网址仍不断被抓取

1 个答案:

答案 0 :(得分:0)

mb_strpos($url, 'kasse', "UTF-8") !== false 

应该是

mb_strpos($url, 'kasse', 0, "UTF-8") !== false