Question

使用下面的简单代码，我遇到了以下问题：为什么Beautiful Soup只返回文件名而不是完整的链接地址？

from bs4 import BeautifulSoup
import urllib2
url = 'http://www.gks.ru/bgd/free/B00_25/IssWWW.exe/Stg/d000/I000650R.HTM'
data = urllib2.urlopen(url).read()
page = BeautifulSoup(data,'lxml')
for link in page.findAll('a'):
       l = link.get('href')
       print l

我得到的只是输出：

I000660R.HTM
I000670R.HTM
I000680R.HTM
I000690R.HTM
I000700R.HTM
I000706R.HTM
I000707R.HTM
I000708R.HTM
I000709R.HTM
000710.HTM
000711.HTM
000712.HTM
000713.HTM
000714.HTM
000715.HTM

Answer 1

问题解决了，考虑到链接的相对性，我将输出与url的根连接起来。感谢。

为什么Beautiful Soup会返回文件名而不是完整链接？

1 个答案: