使用Python搜索网页子页面中单词的频率

时间:2017-05-24 15:42:10

标签: python beautifulsoup

我寻求帮助,因为我被困在如何抓取网页中的每个链接(页面或子页面)并查找任何单词的频率。我用了美味的汤 为了刮,但我不这么认为我做得对。例如:我需要去服务现在官方页面>解决方案>查看所有解决方案在查看所有解决方案下的所有链接/子页面中查找“智能”的频率。 任何帮助将非常感谢。 谢谢:))

我的代码

import requests
from bs4 import BeautifulSoup

url = "https://www.servicenow.com/solutions-by-category.html"
serviceNow_r = requests.get(url)
sNow_soup = BeautifulSoup(serviceNow_r.text, 'html.parser')

print(sNow_soup.find_all('href',{'class':'cta-list component'}))


for name in sNow_soup.find_all('href',{'class':'cta-list component'}):
    print(name.text)

2 个答案:

答案 0 :(得分:3)

这是您访问页面中每个链接的href属性所需的内容。

import requests
from bs4 import BeautifulSoup

url = "https://www.servicenow.com/solutions-by-category.html"
serviceNow_r = requests.get(url)
sNow_soup = BeautifulSoup(serviceNow_r.text, 'html.parser')

for anchor in sNow_soup.find_all('a', href=True):
    print(anchor['href'])

答案 1 :(得分:1)

您正在搜索href标记。这是错的!

您应该搜索a代码,然后获取href属性。这是链接页面的网址。