我必须从HTML页面中提取特定单词并计算单词重复的次数。我怎么用python中的美味汤做到这一点?如何通过汤中的网址然后计算单词?
这是我的代码,直到现在。我不知道下一步该做什么。
import bs4 as bs
import urllib.request
source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()
soup = bs.BeautifulSoup(source,'lxml')
for paragraph in soup.find_all('p'):
print(paragraph.string)
print(str(paragraph.text))
答案 0 :(得分:0)
您可以使用
获取页面中的所有文字soup.get_text()
将其设置为变量之后,您可以使用.count()方法查找特定字符串在HTML页面中显示的数量。 e.g。
text = soup.get_text()
print (text.count('word'))
为了确保您没有在单词中获取单词,您可以使用空格分割所有内容,然后在列表的每个索引中查找它们。例如' house'在里面的房子'将由此确定。