所以我遇到了一个刮刮机器人的问题,我目前正在制作。这个机器人中有一个任务,基本上检查HTML页面中的所有可用A标签,并检查用户指定的目标URL是否存在于此HTML页面中。
这是代码段。
for anchor in soup.findAll('a', href=True):
if target in anchor['href']:
backlink_update()
return 0
现在这是有效的 目标网址:domain.com 一个网页,其中包含一个带有href URL作为domain.com或domain.com/dsadsd/dsds
的A标记但是,如果目标网址是domain.com且网页上的网址是Domain.com或DoMaIn.com,则此功能将无法使用
所以基本上我需要能够匹配特定网页中的任何目标变体。变体可以是domain.com,Domain.com甚至是DomAin.com
我尝试了以下正则表达式模式,但它似乎不起作用。
\s?[^a-zA-Z0-9\_](?i)yaconsyrupstory(?-i)[^a-zA-Z0-9\_]