使用BeautifulSoup抓取特定网页的方法

时间:2017-07-03 17:23:54

标签: python beautifulsoup

我将以下内容刮到了一定程度: http://prepaid-data-sim-card.wikia.com/wiki/Indonesia

我已经为运营商提供了标题。我需要数据的格式是给定标题的每个运算符。我想使用Beautiful Soup在页面中检索信息表,例如topupdaysdata等。该页面在每个运算符中没有表的唯一属性。 这是我为印度尼西亚国家为其运营商编写的代码。

def indo(key):
page=requests.get(key);

text_data=page.text

soup=BeautifulSoup(text_data,'html.parser')

countryDict={}

operators=soup.select('h2 > span > b')

operators_list=[x.text.encode("utf-8")for x in operators]
operators_list=[operators_list[i] for i in range(1,len(operators_list))]
print operators_list
my_dict={};

for operator in operators_list:
    my_dict['operator']=operator;

    plan=soup.select('table > tr > td') 

这是td标签的格式。如何制作货币,数据和奖金的字典,以便我可以在清理数据后将其存储在csv文件中?

0 个答案:

没有答案