在网站上查找并计算单词的匹配项-抓取

时间:2018-11-07 23:56:16

标签: python web-scraping

我需要找到一个单词的匹配项,例如:

在网络https://www.georgetown.edu/中找到所有单词“ Learn” (结果:4个字)(您可以按CTRL + F进行搜索并看到它)

我有我的Python代码,但计数匹配为3! 如果我再找一个字,结果会少一个或多一个

import requests
from bs4 import BeautifulSoup
import re

page = requests.get("https://www.georgetown.edu/")
soup = BeautifulSoup(page.text, 'html.parser')
solo_body = soup.body
limpiar_body = solo_body.text
contar_coincidencias = (limpiar_body.count("learn"))
print(contar_coincidencias)

实际上使用Python3,“ find_all”对我不起作用。

1 个答案:

答案 0 :(得分:0)

您需要同时计算大小写。 将limpiar_body = solo_body.text替换为limpiar_body = solo_body.text.lower()

请注意,它将为您提供5个匹配项,而不是4。原因是它也将与自上而下菜单的结果相匹配,并且菜单中出现Learning,如下所示,

enter image description here