RegularExpression python

时间:2016-09-02 13:35:58

标签: python regex screen-scraping

我在第3章第41页阅读了关于python抓取的Oreilly书,作者使用正则表达式将所有链接以“/”开头。她写道:

for link in bsObj.findAll("a", href=re.compile("^(/|.*"+includeUrl+")")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLinks:
                if(link.attrs['href'].startswith("/")):
                    internalLinks.append(includeUrl+link.attrs['href'])
                else:
                    internalLinks.append(link.attrs['href'])
    return internalLinks

我不知道为什么“以/开头”这样写?因为在正则表达式之前启动一个像“/”这样的特殊符号我们会写成“/”和什么是“|” (或)是什么意思?请帮我解释一下。非常感谢!!!

0 个答案:

没有答案