filehandle = urllib.urlopen(myurl)
由于我想要regex
filehandle
之后的事实,我需要将文件句柄从对象转换为字符串。
如何将网页代码存储在字符串中?
答案 0 :(得分:3)
这很简单:
page = filehandle.read()
您也可以迭代它,例如:
lines = []
for line in filehandle:
lines.append(line)
要提取数据,请使用BeautifulSoup或lxml。
答案 1 :(得分:3)
因为urllib.urlopen
会返回类似对象的文件,您可以在其上调用.read()
,也可以直接迭代它。
请参阅docs了解更多
编辑:
好的解释一下
直接迭代它
的装置。
import urllib
request = urllib.urlopen("http://www.python.org")
for source_line in request:
print source_line