如何使用Beautifulsoup获取大量网站内容的大量href链接

时间:2013-02-28 01:35:43

标签: python-2.7 beautifulsoup urllib

我正在解析一个拥有1000多个href链接的大型html网站。我正在使用Beautifulsoup获取所有链接但第二次再次运行程序时,beautifulsoup无法处理它。 (找到具体的所有'td'标签。我将如何克服这个问题?虽然我可以用urllib加载html页面,但是所有链接都无法打印。当我使用它找到一个'td'标签时,它会被传递。< / p>

Tag = self.__Page.find('table', {'class':'RSLTS'}).findAll('td')    
    print Tag           

    for a in Tag.find('a', href= True):
        print "found", a['href']

现在正在工作

Tag = self .__ Page.find('table',{'class':'RSLTS'})。find('td')
        打印标签

    for a in Tag.find('a', href= True):
        print "found", a['href']

1 个答案:

答案 0 :(得分:0)

你需要迭代它们:

tds = self.__Page.find('table', class_='RSLTS').find_all('td')

for td in tds:
    a = td.find('a', href=True)

    if a:
        print "found", a['href']

虽然如果你有很多东西我会使用lxml:

root.xpath('table[contains(@class, "RSLTS")]/td/a/@href')