在div类中刮取特定的h2标记

时间:2016-07-03 00:31:28

标签: python web-scraping beautifulsoup emoji

我正在尝试在h2标签内删除表情符号'事件'来自http://emojipedia.org/food-drink/。我编写了以下代码,但head_links是一个空列表:

import requests
from bs4 import BeautifulSoup 
import json
import csv
url2 = "http://emojipedia.org/food-drink/"
html2 = requests.get(url2).content
soup2 = BeautifulSoup(html2)
head_links = soup2.findAll('h2', {'class':'Events'})

我也试过使用soup.select命令,但我又得到了一个空列表..

非常感谢任何帮助!

1 个答案:

答案 0 :(得分:2)

您正在寻找的内容实际上并非属于h2类的Events标记,您正在寻找包含div标记的内容{em>内容为"事件"。

h2代码

这应该让你开始:

div_contents = soup2.find('h2', text='Events').findParent()