我正在开展一个涉及处理大量数据的项目。从本质上讲,在一些可以下载的excel文件网站上存在一个大型存储库。该网站有几个不同的过滤器列表,我有几个不同的参数,我正在过滤,然后从中收集数据。总的来说,这个过程要求我下载超过1,000个excel文件并将它们复制并粘贴在一起。
Python是否具有自动执行此过程的功能?基本上我正在做的是设置过滤器1 = A,过滤器2 = B,过滤器3 = C,下载文件,然后重复使用不同的参数并将文件复制并粘贴在一起。如果Python适合这一点,任何人都可以指向一个好的教程或起点的方向吗?如果没有,对于背景较少的人来说,哪种语言更适合这种语言?
谢谢!
答案 0 :(得分:1)
我个人更喜欢使用python。我将特别关注Pandas库,它是一个功能强大的数据分析库,它具有一个可以像无头电子表格一样使用的数据帧对象。我将它用于少量电子表格,而且速度非常快。或许可以看一下这个人的网站以获得更多指导。 https://pythonprogramming.net/data-analysis-python-pandas-tutorial-introduction/
如果你的问题只是关于电子表格的话,我不是百分之百,而且我的第一段真的是关于文件的下载,但是如果你对实际获取文件或“抓取”数据感兴趣你可以在Requests库中查看http的一面 - 如果有Restful的做事方式,这可能是你可以使用的。或者,查看scrapy https://scrapy.org进行网页抓取。 对不起,如果我误解了部分内容。