Question

filehandle = urllib.urlopen(myurl)

由于我想要regex filehandle之后的事实，我需要将文件句柄从对象转换为字符串。如何将网页代码存储在字符串中？

Answer 1

这很简单：

page = filehandle.read()

您也可以迭代它，例如：

lines = []
for line in filehandle:
    lines.append(line)

要提取数据，请使用BeautifulSoup或lxml。

Answer 2

因为urllib.urlopen会返回类似对象的文件，您可以在其上调用.read()，也可以直接迭代它。

请参阅docs了解更多

编辑：

好的解释一下

直接迭代它

的装置。

import urllib
request = urllib.urlopen("http://www.python.org")
for source_line in request:
    print source_line