Question

我可以使用urllib获取html页面，并使用BeautifulSoup来解析html页面，看起来我必须生成要从BeautifulSoup读取的文件。

import urllib                                       
sock = urllib.urlopen("http://SOMEWHERE") 
htmlSource = sock.read()                            
sock.close()                                        
--> write to file

有没有办法调用BeautifulSoup而不从urllib生成文件？

Answer 1

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(htmlSource)

无需编写文件：只需传入HTML字符串即可。您还可以直接传递从urlopen返回的对象：

f = urllib.urlopen("http://SOMEWHERE") 
soup = BeautifulSoup(f)

Answer 2

您可以打开网址，下载html，然后使用gazpacho使其可解析：

from gazpacho import Soup
soup = Soup.get("https://www.example.com/")

使用urllib和BeautifulSoup通过Python从Web检索信息

2 个答案: