我能够在另一个堆栈溢出帖子中找到这个问题的答案,但我意识到我不知道如何实际使用它。我的代码以print命令结束 - 之后的所有内容都是我想要使用的。有人可以指导我,让我知道如何将这两个代码结合起来吗?谢谢!
from html.parser import HTMLParser
import requests
from bs4 import BeautifulSoup
urls = ["http://www.nerdwallet.com/the-best-credit-cards"]
for url in urls:
website = requests.get(url)
soup = BeautifulSoup(website.content)
texts = soup.findAll(text=True)
for item in texts:
print(item)
class MLStripper(HTMLParser):
def __init__(self):
super().__init__()
self.reset()
self.fed = []
def handle_data(self, d):
self.fed.append(d)
def get_data(self):
return ''.join(self.fed)
def strip_tags(url):
s = MLStripper()
s.feed(html)
return s.get_data()