Question

我必须从HTML页面中提取特定单词并计算单词重复的次数。我怎么用python中的美味汤做到这一点？如何通过汤中的网址然后计算单词？

这是我的代码，直到现在。我不知道下一步该做什么。

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

soup = bs.BeautifulSoup(source,'lxml')

for paragraph in soup.find_all('p'):
    print(paragraph.string)
    print(str(paragraph.text))

Answer 1

您可以使用

获取页面中的所有文字

soup.get_text()

将其设置为变量之后，您可以使用.count（）方法查找特定字符串在HTML页面中显示的数量。 e.g。

text = soup.get_text()
print (text.count('word'))

为了确保您没有在单词中获取单词，您可以使用空格分割所有内容，然后在列表的每个索引中查找它们。例如＆＃39; house＆＃39;在里面的房子＆＃39;将由此确定。

如何使用python中的美丽汤从html页面获取特定单词

1 个答案: