将原始字符串放入正则表达式

时间:2015-10-31 09:53:02

标签: python html regex encoding beautifulsoup

我尝试使用正则表达式查找BeautifulSoup的标记。

问题在于我不知道代表regex符号的所有特殊字符,因此我不知道放置/的位置。

让我们说一个div代码中有这个文字: v katalógu rôznych firiem ,网页上有字符集 - utf-8

result = soup.find('div',text=re.compile('.*'+r'v katalógu rôznych firiem'+'.*'))

如果我尝试print result我得到None类型,但我确定有这样的标记。

可能有什么不对? regexencoding是否存在问题?

以下是示例:

<div class="col-sm-10"><h1 class="word-ma">Selsso</h1> —                <b>Zobrazený 1</b> výsledok nájdený                v katalógu rôznych firiem        </div>

0 个答案:

没有答案