美味的汤,如果类“包含”或正则表达?

时间:2016-01-07 16:34:59

标签: python regex web-scraping beautifulsoup

如果我的班级名字经常不同,比如说:

listing-col-line-3-11 dpt 41
listing-col-block-1-22 dpt 41
listing-col-line-4-13 CWK 12

通常我可以这样做:

for EachPart in soup.find_all("div", {"class" : "ClassNamesHere"}):
            print EachPart.get_text()

有太多的类名要在这里工作,所以其中有很多都出来了。

我知道Python没有“.contains”我通常会使用它但它确实有一个“in”。虽然我还没有找到一种方法来融入它。

我希望有一种方法可以用正则表达式做到这一点。虽然我的Python语法真的让我失望,但我一直在尝试各种变体:

regex = re.compile('.*listing-col-.*')
    for EachPart in soup.find_all(regex):

但这似乎没有成功。

3 个答案:

答案 0 :(得分:21)

BeautifulSoup支持CSS selectors,允许您根据特定属性的内容选择元素。这包括for包含的选择器*=

以下内容将返回包含div属性的所有class元素,其中包含文字' listing-col - ':

for EachPart in soup.select('div[class*="listing-col-"]'):
    print EachPart.get_text()

答案 1 :(得分:7)

Yu可以试试这个:

regex = re.compile('.*listing-col-.*')
for EachPart in soup.find_all("div", {"class" : regex}):
        print EachPart.get_text()

答案 2 :(得分:1)

您可以通过与gazpacho ...部分匹配来避免使用正则表达式...

输入:

html = """\
<div class="listing-col-line-3-11 dpt 41">A</div>
<div class="listing-col-block-1-22 dpt 41">B</div>
<div class="listing-col-line-4-13 CWK 12">C</div>
"""

部分匹配代码:

from gazpacho import Soup

soup = Soup(html)
divs = soup.find("div", {"class": "listing-col-"}, partial=True)
[div.text for div in divs]

输出:

['A', 'B', 'C']