在python中的HTML数据报废

时间:2015-08-21 11:05:54

标签: python django

我以html格式获取数据。如何从该格式获取特定数据。完整的html将在django的post请求中出现。现在我必须在html中的表格标签之间获取数据。试过beautifulSoup但是从网址获取数据。在python中以标记之间获取数据的任何可能方法。

python版本:2.7

2 个答案:

答案 0 :(得分:1)

美丽的汤和要求。

要求获取数据然后美丽的汤从标签读取 例如。

from bs4 import BeautifulSoup
import requests
r = requests.get("https://www.google.com")
soup = BeautifulSoup(r.text) 
div_style = div.find('div')['style']

如果页面是基于javascript的,您可能需要使用selenium和webdriver与您选择的浏览器。如果它基于CSS,你可能需要cssutils来解析它。

答案 1 :(得分:0)

正如@lxx所说,BeautifulSoup +请求是一个很好的方法,我自己使用它并且效果很好。

我还建议您查看scrapy

如果您正在处理一个可能很大的项目,那么使用Xpath来查询HTML代码将是一项很好的投资(时间和代码简单性)。