我制作了一个脚本,用于从网站的所有76页获取每个H1标签。但是在这个过程中,我的程序会复制一个非常具体的行" Current Affairs January 2015"因为这一行存在于每一页中。我可以编辑代码只打印一次吗?
这是我的代码:
from bs4 import BeautifulSoup as bs
import urllib
for i in range(2,77):
url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
soup = bs(urllib.urlopen(url1))
for link in soup.findAll('h1'):
print link.string
提前致谢。
答案 0 :(得分:1)
from bs4 import BeautifulSoup as bs
import urllib
for i in range(2,77):
url1="http://currentaffairs.gktoday.in/month/current-affairs-january-2015/"+"page/"+str(i)
soup = bs(urllib.urlopen(url1))
uLinks = soup.findAll('h1')
for index, item in enumerate(uLinks):
if i == 2:
print(item.string)
if i != 2:
if index != 0:
print(item.string)