我正在编写这个漂亮的工具,它将返回网页上的每个链接。 我试图在另一个'stackoverflow'问题的帮助下做到这一点并同时得到这个代码:
import httplib2
from bs4 import BeautifulSoup, SoupStrainer
http = httplib2.Http()
status, response = http.request(url)
for link in BeautifulSoup(response, parse_only=SoupStrainer('a')):
if link.has_attr('href'):
print link['href']
我认为它有用,但不幸的是我看到很多链接丢失了, 我相信这是因为一些链接是在DOM开始行动时生成的,而BeautifulSoup并没有考虑到这一点。