我需要从多个页面获取数据。数据存储在html表中。 我想生成SQL文件,将它们保存到我的数据库中。 我的目标之一是these results。
处理网站的最简单方法可能是JavaScript,但如何在每个网站上运行脚本并将结果写入我的硬盘?
我还可以使用wget下载所有需要的网站,并使用Python进行处理,如果它有必要的库来处理html。
答案 0 :(得分:1)
如果我理解正确,你基本上必须从网上抓取一些内容并将其存储在数据库中。
我可能会选择一个Python脚本,它使用urllib2
库抓取网页,然后根据所需内容(regexp,BeautifulSoup等等)以某种方式解析它。
看看这个问题:Web scraping with Python