使用python从应用程序的网页获取信息

时间:2013-12-28 09:01:40

标签: python html xml

我目前正在尝试为betfair交易网站创建一个机器人,它涉及使用使用soap的betfair api,新的API-NG将使用json,这样我就能理解如何访问我需要的信息。 我的问题是,使用python,从一个只使用html的网站获取信息的最佳方法是什么,我可以将它转换为某种方式可能是xml或者最好/最简单的方式。 Json,xml和基本上所有这些对我来说都是新的,所以任何帮助将不胜感激。 这是我试图获取马名称和价格的网站之一,

  

http://www.oddschecker.com/horse-racing-betting/chepstow/14:35/winner

我知道有一些类似的问题,但看看上面的答案和来源,我不知道如何获得我需要的信息。

1 个答案:

答案 0 :(得分:1)

要从网站获取html,有两个使用得很好的选项。

urllib2这是内置的。

requests这是第三方,但非常容易使用。

如果您需要解析html,我建议使用Beautiful soup

示例:

import requests
from bs4 import BeautifulSoup

url = 'http://www.example.com'
page_request = requests.get(url)
page_source = page_request.text
soup = BeautifulSoup(page_source)

page_source只是页面的基本html,没什么用处,另一方面汤对象可以用来自动访问页面的不同部分。