美好的一天,
我有一个html作为字符串,我需要在那里找到任何有'content'字样的类。
例如:
class='?content?'
?
- 任意数量的符号或字符。
我想用正确的字符串而不是'entry-content'传递变量。但是我不能输入'div [class * =“content”] - 它不适合我。
如果有一种方法可以将所有类与“内容”匹配而不预先处理html,那将是完美的。只是那个预处理是我最初的想法。
import pandas as pd
import requests
from bs4 import BeautifulSoup
import sys
import urllib
USER_AGENT = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'}
import re
resultText = ''
url = 'http://kakzarabativat.ru/soveti/s-chego-nachat-biznes-ili-poshagovyj-plan-starta-biznesa/'
html = urllib.request.urlopen(url).read()
content = soup.find('div', {'class': 'entry-content'})
raw = content.find_all('p')
for item in raw:
text = BeautifulSoup(str(item), 'html.parser').get_text()
resultText += text + ' '
resultText = resultText.replace("\n", "")
resultText = resultText.replace("\xa0", "")
resultText = resultText.replace("\n\n ", "")
对不起,如果这是一个愚蠢的问题,或者说我完全错了。