使用Python BeautifulSoup解析远程Web

时间:2012-01-12 15:22:32

标签: python parsing beautifulsoup

https://stackoverflow.com/a/64983/468251 - 您好,我对此代码有疑问,如何使用远程网站网址,以及如何从所有输入获得值= fooId ['value'],不仅仅是从第一个开始?

2 个答案:

答案 0 :(得分:1)

该示例使用本地文件。如果要使用远程站点,则需要从服务器下载文件并解析html。

您可以查看requesturllib2

我希望它有所帮助

答案 1 :(得分:0)

当您在互联网上解析网址时,您需要先找到一种下载网页内容html的方法。有很棒的库,比如请求,据说最适合python。假设您要解析https://stackoverflow.com/

import requests
response = requests.get("https://stackoverflow.com/")
page_html = response.text

page_html是python字符串中的页面html,然后你可以像对待本地html文件一样对待它,并对它们进行任何类型的解析。

至于获得模式的所有出现,您可以soup.findAll('input',name='fooId',type='hidden')而不仅仅是soup.find()。 soup.findAll将返回所有出现的列表。