BeautifulSoup python投掷errno22错误invalidmode('r')

时间:2013-04-02 06:22:05

标签: python html regex parsing beautifulsoup

我正在尝试在python中编写一个从特定网站下载图像的图像存档器,并且我一直在我的beautifulsoup线上出现ioerror errno22无效模式('r')或文件名错误

soup = BeautifulSoup(open(pahealUrl))

aTagList = soup.findall("a")

for randomTag in aTagList:
  if randomTag.find(text="Image Only"):
    imageList.append(randomTag) 

print randomTag

网址本身是有效的,我不知道问题是什么。任何想法为什么它抛出errno22无效的模式/文件名错误?

1 个答案:

答案 0 :(得分:1)

要获取网页的html,请使用urllib2库:

import urllib2
html = urllib2.urlopen(myurl).read()

open()不用于打开网页,而是用于打开文件。这就是你得到文件名错误的原因。

然后你可以BeautifulSoup() HTML来获取你的汤。