Question

我以html格式获取数据。如何从该格式获取特定数据。完整的html将在django的post请求中出现。现在我必须在html中的表格标签之间获取数据。试过beautifulSoup但是从网址获取数据。在python中以标记之间获取数据的任何可能方法。

python版本：2.7

Answer 1

美丽的汤和要求。

要求获取数据然后美丽的汤从标签读取例如。

from bs4 import BeautifulSoup
import requests
r = requests.get("https://www.google.com")
soup = BeautifulSoup(r.text) 
div_style = div.find('div')['style']

如果页面是基于javascript的，您可能需要使用selenium和webdriver与您选择的浏览器。如果它基于CSS，你可能需要cssutils来解析它。

Answer 2

正如@lxx所说，BeautifulSoup +请求是一个很好的方法，我自己使用它并且效果很好。

我还建议您查看scrapy。

如果您正在处理一个可能很大的项目，那么使用Xpath来查询HTML代码将是一项很好的投资（时间和代码简单性）。

在python中的HTML数据报废

2 个答案: