如何使用python中的美丽汤从html页面获取特定单词

时间:2017-11-05 10:45:41

标签: python python-3.x beautifulsoup

我必须从HTML页面中提取特定单词并计算单词重复的次数。我怎么用python中的美味汤做到这一点?如何通过汤中的网址然后计算单词?

这是我的代码,直到现在。我不知道下一步该做什么。

import bs4 as bs
import urllib.request

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read()

soup = bs.BeautifulSoup(source,'lxml')

for paragraph in soup.find_all('p'):
    print(paragraph.string)
    print(str(paragraph.text)) 

1 个答案:

答案 0 :(得分:0)

您可以使用

获取页面中的所有文字
soup.get_text()

将其设置为变量之后,您可以使用.count()方法查找特定字符串在HTML页面中显示的数量。 e.g。

text = soup.get_text()
print (text.count('word'))

为了确保您没有在单词中获取单词,您可以使用空格分割所有内容,然后在列表的每个索引中查找它们。例如' house'在里面的房子'将由此确定。