使用Python在Web上抓取CSV的最佳方法

时间:2014-10-21 13:48:32

标签: python csv web-scraping

我希望用更易于管理和可靠的东西取代Yahoo Query Language。现在我们使用它来抓取公共CSV文件并使用我们的网络应用程序中的信息。

目前我在寻找替代方案时遇到了麻烦,似乎用Python抓取网站是最好的选择。但是,我甚至不知道从哪里开始。

我的问题是需要什么来抓取CSV,保存数据并使用Python在Web应用程序的其他地方使用它?我需要专用数据库还是可以以不同方式保存数据?

赞赏一个简单的解释

1 个答案:

答案 0 :(得分:1)

这有点宽泛,但我们将它分成不同的任务

  

我的问题是刮取CSV

需要什么

如果您的意思是从已知网址下载CSV文件,则可以使用urllib。如果您没有CSV网址,则必须以某种方式获取这些网址。如果您想从网页获取网址,beautifulsoup通常用于解析HTML。 scrapy用于大规模抓取。

  

保存数据。

     

我是否需要专用数据库,还是可以以不同方式保存数据?

完全没有。您可以将CSV文件直接保存到磁盘中,使用pickle存储它们,将它们序列化为JSON或使用关系数据库或NoSQL数据库。您应该使用什么在很大程度上取决于您想要做什么以及您需要对数据进行访问的内容(本地/远程,集中/分布式)。

  

并在使用Python的Web应用程序的其他地方使用它

您可能希望了解如何使用网络框架(djangoflaskcherrypy是常见的选择)。如果您不需要并发写访问权限,我提到的任何存储方法都可以使用这些