我尝试使用正则表达式查找BeautifulSoup
的标记。
问题在于我不知道代表regex
符号的所有特殊字符,因此我不知道放置/
的位置。
让我们说一个div
代码中有这个文字: v katalógu rôznych firiem
,网页上有字符集 - utf-8
result = soup.find('div',text=re.compile('.*'+r'v katalógu rôznych firiem'+'.*'))
如果我尝试print
result
我得到None
类型,但我确定有这样的标记。
可能有什么不对? regex
或encoding
是否存在问题?
以下是示例:
<div class="col-sm-10"><h1 class="word-ma">Selsso</h1> — <b>Zobrazený 1</b> výsledok nájdený v katalógu rôznych firiem </div>