Python BeautifulSoup不处理整个页面

时间:2014-07-26 19:51:08

标签: python dom beautifulsoup href urllib2

我正在编写这个漂亮的工具,它将返回网页上的每个链接。 我试图在另一个'stackoverflow'问题的帮助下做到这一点并同时得到这个代码:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request(url)

for link in BeautifulSoup(response, parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print link['href']

我认为它有用,但不幸的是我看到很多链接丢失了, 我相信这是因为一些链接是在DOM开始行动时生成的,而BeautifulSoup并没有考虑到这一点。

0 个答案:

没有答案