从html表中获取数据

时间:2013-01-24 22:57:07

标签: javascript python sql html-table

我需要从多个页面获取数据。数据存储在html表中。 我想生成SQL文件,将它们保存到我的数据库中。 我的目标之一是these results

处理网站的最简单方法可能是JavaScript,但如何在每个网站上运行脚本并将结果写入我的硬盘?

我还可以使用wget下载所有需要的网站,并使用Python进行处理,如果它有必要的库来处理html。

1 个答案:

答案 0 :(得分:1)

如果我理解正确,你基本上必须从网上抓取一些内容并将其存储在数据库中。

我可能会选择一个Python脚本,它使用urllib2库抓取网页,然后根据所需内容(regexp,BeautifulSoup等等)以某种方式解析它。

看看这个问题:Web scraping with Python