刮取并存储html显示的数据

时间:2017-03-01 08:59:59

标签: python html mysql beautifulsoup

我编写了python来抓取网页并检索上市价格。

我想存储数据并对数据集进行统计分析。

这会有用吗?

Python - > beautifulsoup - > mySQL - > HTML

数据集: 10美元,20美元,10美元

我希望能够计算平均值,然后在html页面上显示它们。

3 个答案:

答案 0 :(得分:1)

在存储到mySQL之前,您可以留在Python中进行分析(例如使用Python Pandas数据帧): Python - > Beautifulsoup - >熊猫 - > mySQL - > HTML

答案 1 :(得分:1)

Beautifulsoup是一个HTML解析器。您可以使用Python将其提供给HTML页面,并从中提取所需的数据。然后,您可以在Python中对数据进行后处理,并在准备好后将其加载到MySQL中。我对MySQL的步骤有点困惑 - > HTML,因为它们都不是一种编程语言(HTML是一种无法与MySQL通信的标记语言,而MySQL是一种无法直接输出HTML的数据库管理系统),但可以肯定的是,它显示的是MySQL数据。 HTML页面是一个微不足道的步骤。

顺便说一句,将这些步骤分开可能是个好主意。您有一些代码可以提取数据并将其加载到数据库中,并且您有一些代码可以显示数据库中的数据。保持这两个分开可能会提高您的代码质量。

答案 2 :(得分:0)

如果您正在使用数据正常使用,您可以将它存储在sqlite db而不是mysql中,而mysql内置了python支持。如果您的站点大多是静态的,那么您可以使用Beautifulsoup进行抓取,并且有许多python库如numpy用于统计分析。如果您的目标站点具有动态生成的内容,那么最好使用phantomjs或selenium驱动程序来检索这些内容