正则表达式,用于在html中查找特定类型的类

时间:2018-04-17 15:38:36

标签: python regex

美好的一天,

我有一个html作为字符串,我需要在那里找到任何有'content'字样的类。

例如:

class='?content?'

? - 任意数量的符号或字符。

我想用正确的字符串而不是'entry-content'传递变量。但是我不能输入'div [class * =“content”] - 它不适合我。

如果有一种方法可以将所有类与“内容”匹配而不预先处理html,那将是完美的。只是那个预处理是我最初的想法。

import pandas as pd
import requests
from bs4 import BeautifulSoup
import sys
import urllib
USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
import re


resultText = ''
url = 'http://kakzarabativat.ru/soveti/s-chego-nachat-biznes-ili-poshagovyj-plan-starta-biznesa/'
html = urllib.request.urlopen(url).read()

content = soup.find('div', {'class': 'entry-content'})
raw = content.find_all('p')
for item in raw:
    text = BeautifulSoup(str(item), 'html.parser').get_text()
    resultText += text + ' '
    resultText = resultText.replace("\n", "")
    resultText = resultText.replace("\xa0", "")
    resultText = resultText.replace("\n\n ", "")

对不起,如果这是一个愚蠢的问题,或者说我完全错了。

0 个答案:

没有答案